論文の概要: 2D-OOB: Attributing Data Contribution Through Joint Valuation Framework
- arxiv url: http://arxiv.org/abs/2408.03572v2
- Date: Wed, 30 Oct 2024 04:10:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 12:33:46.896824
- Title: 2D-OOB: Attributing Data Contribution Through Joint Valuation Framework
- Title(参考訳): 2D-OOB: 共同評価フレームワークによるデータのコントリビューション
- Authors: Yifan Sun, Jingyan Shen, Yongchan Kwon,
- Abstract要約: 2D-OOBは, 有用な(あるいは有害な)サンプルと, それらを駆動する特定の細胞を共同で決定するための推定フレームワークである。
2D-OOBは、指数的に高速でありながら、複数のユースケースで最先端のパフォーマンスを実現する。
具体的には、2D-OOBは、細胞レベルできめ細かなアウトリーチを検出し、修正し、データ中毒攻撃においてバックドアトリガーを局所化する有望な結果を示す。
- 参考スコア(独自算出の注目度): 13.412636433051338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data valuation has emerged as a powerful framework for quantifying each datum's contribution to the training of a machine learning model. However, it is crucial to recognize that the quality of cells within a single data point can vary greatly in practice. For example, even in the case of an abnormal data point, not all cells are necessarily noisy. The single scalar score assigned by existing data valuation methods blurs the distinction between noisy and clean cells of a data point, making it challenging to interpret the data values. In this paper, we propose 2D-OOB, an out-of-bag estimation framework for jointly determining helpful (or detrimental) samples as well as the particular cells that drive them. Our comprehensive experiments demonstrate that 2D-OOB achieves state-of-the-art performance across multiple use cases while being exponentially faster. Specifically, 2D-OOB shows promising results in detecting and rectifying fine-grained outliers at the cell level, and localizing backdoor triggers in data poisoning attacks.
- Abstract(参考訳): データバリュエーションは、機械学習モデルのトレーニングに対する各ダムの貢献を定量化するための強力なフレームワークとして登場した。
しかし、単一のデータポイント内のセルの品質が実際に大きく異なる可能性があることを認識することが重要である。
例えば、異常なデータポイントであっても、すべての細胞がうるさいとは限らない。
既存のデータ評価手法によって割り当てられた単一のスカラースコアは、データポイントのノイズとクリーンなセルの区別を曖昧にし、データ値の解釈が困難になる。
本稿では,有用(あるいは有害な)サンプルを共同で決定する2D-OOBと,それらを駆動する特定の細胞を提案する。
包括的実験により、2D-OOBは指数関数的に高速でありながら、複数のユースケースで最先端のパフォーマンスを実現することが示された。
具体的には、2D-OOBは、細胞レベルできめ細かなアウトリーチを検出し、修正し、データ中毒攻撃においてバックドアトリガーを局所化する有望な結果を示す。
関連論文リスト
- 2D-Shapley: A Framework for Fragmented Data Valuation [18.438617541012594]
断片化データ評価の理論的枠組みとして2D-Shapleyを提案する。
2D-Shapleyは、有用なデータフラグメントの選択など、さまざまな新しいユースケースを促進する。
論文 参考訳(メタデータ) (2023-06-18T04:30:12Z) - Imbalanced Aircraft Data Anomaly Detection [103.01418862972564]
航空シナリオ下でのセンサーからの時間データの異常検出は実用的だが難しい課題である。
本稿では,グラフィカル・テンポラル・データ分析フレームワークを提案する。
シリーズ・トゥ・イメージ (S2I) と呼ばれる3つのモジュール、ユークリッド距離 (CRD) を用いたクラスタ・ベース・リサンプリング・アプローチ、変数・ベース・ロス (VBL) から構成される。
論文 参考訳(メタデータ) (2023-05-17T09:37:07Z) - Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value [17.340091573913316]
本研究では,バッジモデルのためのデータ評価手法であるData-OOBを提案する。
Data-OOBは、評価に106ドルのサンプルがあり、入力寸法が100である場合、1つのCPUプロセッサで2.25時間未満である。
提案手法は,誤ラベル付きデータを識別し,有用な(あるいは有害な)データポイントの集合を見出すことで,既存の最先端データ評価手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-16T08:03:58Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled
Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。
本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。
本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z) - Target-Independent Domain Adaptation for WBC Classification using
Generative Latent Search [20.199195698983715]
教師なしドメイン適応 (Unsupervised Domain Adaptation, UDA) 技術は、十分な量の不正なターゲットデータの存在を前提としている。
本稿では,対象データを必要としないUDAの手法を提案する。
情報源分布から無限個のデータポイントをサンプリングできることから,そのようなクローンの存在を証明した。
論文 参考訳(メタデータ) (2020-05-11T20:58:23Z) - Establishing strong imputation performance of a denoising autoencoder in
a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。
結果と最先端の計算手法を比較検討した。
開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文 参考訳(メタデータ) (2020-04-06T12:00:30Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。