論文の概要: Sliced-Wasserstein Distance-based Data Selection
- arxiv url: http://arxiv.org/abs/2504.12918v1
- Date: Thu, 17 Apr 2025 13:07:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:36:02.010686
- Title: Sliced-Wasserstein Distance-based Data Selection
- Title(参考訳): Sliced-Wasserstein Distance を用いたデータ選択
- Authors: Julien Pallage, Antoine Lesage-Landry,
- Abstract要約: 本稿では,スライス-ワッサーシュタイン距離に基づく新しい教師なし異常検出手法を提案する。
私たちのフィルタリング技術は、重要な分野に機械学習モデルをデプロイする意思決定パイプラインにとって興味深いものです。
提案手法の合成データセットに対するフィルタリングパターンについて述べるとともに,データ選択の訓練のための数値的ベンチマークを行う。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We propose a new unsupervised anomaly detection method based on the sliced-Wasserstein distance for training data selection in machine learning approaches. Our filtering technique is interesting for decision-making pipelines deploying machine learning models in critical sectors, e.g., power systems, as it offers a conservative data selection and an optimal transport interpretation. To ensure the scalability of our method, we provide two efficient approximations. The first approximation processes reduced-cardinality representations of the datasets concurrently. The second makes use of a computationally light Euclidian distance approximation. Additionally, we open the first dataset showcasing localized critical peak rebate demand response in a northern climate. We present the filtering patterns of our method on synthetic datasets and numerically benchmark our method for training data selection. Finally, we employ our method as part of a first forecasting benchmark for our open-source dataset.
- Abstract(参考訳): 機械学習手法におけるデータ選択のためのスライス・ワッサースタイン距離に基づく新しい教師なし異常検出手法を提案する。
私たちのフィルタリング技術は、保守的なデータ選択と最適なトランスポート解釈を提供するため、機械学習モデルを重要なセクター、例えば電力システムにデプロイする意思決定パイプラインにとって興味深いものです。
提案手法のスケーラビリティを確保するため,2つの効率的な近似法を提案する。
第1の近似プロセスは、データセットの心臓の表現を同時に削減する。
2つ目は計算量的に軽量なユークリッド距離近似である。
さらに、北の気候における局地的臨界ピークリベート需要応答を示す最初のデータセットを開設した。
提案手法の合成データセットに対するフィルタリングパターンについて述べるとともに,データ選択の訓練のための数値的ベンチマークを行う。
最後に、オープンソースデータセットの最初の予測ベンチマークの一部として、我々の手法を使用します。
関連論文リスト
- Dataset Distillation as Pushforward Optimal Quantization [1.039189397779466]
そこで本稿では,ImageNet-1Kデータセットの性能向上を目的とした,最先端データ蒸留法D4Mの簡易拡張を提案する。
エンコーダ・デコーダ構造を組み込んだ場合、実験的に成功した不整合法を最適な量子化問題として再定義できることを実証する。
特に, 既存の不整合データセット蒸留法を古典的最適量子化法とワッサーシュタインバリセンタ問題にリンクし, 拡散型生成前処理のための蒸留データセットの整合性を示す。
論文 参考訳(メタデータ) (2025-01-13T20:41:52Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Sliced-Wasserstein-based Anomaly Detection and Open Dataset for Localized Critical Peak Rebates [25.452449432754698]
我々はスライス-ワッサーシュタイン計量を用いた新しい教師なし異常検出法(AD)を提案する。
このフィルタリング技術は、機械学習モデルを重要なセクターにデプロイするMLOpsパイプラインにおいて、概念的に興味深い。
論文 参考訳(メタデータ) (2024-10-29T03:54:48Z) - Loss-Free Machine Unlearning [51.34904967046097]
我々は、再学習とラベルなしの両方の機械学習アプローチを提案する。
Retraining-freeアプローチは、損失から派生したFisher情報を利用することが多く、利用できないラベル付きデータを必要とする。
本稿では,モデル出力のl2ノルムの勾配に対して,フィッシャー情報行列の対角線を近似感度に置き換えるSelective Synaptic Dampeningアルゴリズムの拡張を提案する。
論文 参考訳(メタデータ) (2024-02-29T16:15:34Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Direct Localization in Underwater Acoustics via Convolutional Neural
Networks: A Data-Driven Approach [31.399611901926583]
ダイレクトローカライゼーション(DLOC)法は、一般的に間接的な2段階法よりも優れている。
水中音響DLOC法は環境の事前の知識を必要とする。
そこで本研究では,データ駆動型DLOC法を提案する。
論文 参考訳(メタデータ) (2022-07-20T22:40:11Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Fair Data Representation for Machine Learning at the Pareto Frontier [3.6052935394000234]
教師付き学習による公正なデータ表現のための前処理アルゴリズムを提案する。
本研究では,学習結果の条件分布(センシティブな情報)からバリセンタへの分布から得られるワッサースタイン2の測地線が,平均対のワッサースタイン2距離と$L2$-lossの間のフロンティアを特徴付けることを示す。
数値シミュレーションでは,(1)事前処理ステップは任意の条件予測推定学習法と未知のデータとを併用し,(2)公正表現は,残余データの機密データに対する推論能力を制限することによりセンシティブ情報を保護し,(3)最適アフィンを生成する。
論文 参考訳(メタデータ) (2022-01-02T05:05:26Z) - Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。
提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-28T22:24:07Z) - Kernel Ridge Regression Using Importance Sampling with Application to
Seismic Response Prediction [1.4180331276028657]
効率的な2段階アプローチを用いて,多様性を促進する新しいランドマーク選択法を提案する。
また, 地震荷重と材料不確実性による構造応答予測のためのカーネル手法の新たな適用法を用いて, いくつかのランドマーク選択手法の性能について検討した。
論文 参考訳(メタデータ) (2020-09-19T01:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。