論文の概要: 2D-OOB: Attributing Data Contribution through Joint Valuation Framework
- arxiv url: http://arxiv.org/abs/2408.03572v1
- Date: Wed, 7 Aug 2024 06:16:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:43:46.297410
- Title: 2D-OOB: Attributing Data Contribution through Joint Valuation Framework
- Title(参考訳): 2D-OOB: 共同評価フレームワークによるデータの貢献
- Authors: Yifan Sun, Jingyan Shen, Yongchan Kwon,
- Abstract要約: 有用なサンプル(あるいは有害なサンプル)を共同で判定する2D-OOBを提案する。
2D-OOBは、指数的に高速でありながら、複数のユースケースで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 13.412636433051338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data valuation has emerged as a powerful framework to quantify the contribution of each datum to the training of a particular machine learning model. However, it is crucial to recognize that the quality of various cells within a single data point can vary greatly in practice. For example, even in the case of an abnormal data point, not all cells are necessarily noisy. The single scalar valuation assigned by existing methods blurs the distinction between noisy and clean cells of a data point, thereby compromising the interpretability of the valuation. In this paper, we propose 2D-OOB, an out-of-bag estimation framework for jointly determining helpful (or detrimental) samples, as well as the particular cells that drive them. Our comprehensive experiments demonstrate that 2D-OOB achieves state-of-the-art performance across multiple use cases, while being exponentially faster. 2D-OOB excels in detecting and rectifying fine-grained outliers at the cell level, as well as localizing backdoor triggers in data poisoning attacks.
- Abstract(参考訳): データバリュエーションは、特定の機械学習モデルのトレーニングに対する各ダムの貢献を定量化するための強力なフレームワークとして登場した。
しかし、1つのデータポイント内の様々なセルの品質が実際に大きく異なる可能性があることを認識することが重要である。
例えば、異常なデータポイントであっても、すべての細胞がうるさいとは限らない。
既存の方法で割り当てられた単一のスカラー評価は、データポイントのノイズとクリーンなセルの区別を曖昧にし、その結果、評価の解釈可能性を損なう。
本稿では,有用な(あるいは有害な)サンプルを共同で決定するための2D-OOBと,それらを駆動する特定の細胞を提案する。
包括的実験により,2D-OOBは複数のユースケースにまたがって最先端の性能を実現し,指数関数的に高速であることが示された。
2D-OOBは、細胞レベルでの微細なアウトリーチの検出と修正、データ中毒攻撃におけるバックドアトリガーの局所化に優れています。
関連論文リスト
- 2D-Shapley: A Framework for Fragmented Data Valuation [18.438617541012594]
断片化データ評価の理論的枠組みとして2D-Shapleyを提案する。
2D-Shapleyは、有用なデータフラグメントの選択など、さまざまな新しいユースケースを促進する。
論文 参考訳(メタデータ) (2023-06-18T04:30:12Z) - Imbalanced Aircraft Data Anomaly Detection [103.01418862972564]
航空シナリオ下でのセンサーからの時間データの異常検出は実用的だが難しい課題である。
本稿では,グラフィカル・テンポラル・データ分析フレームワークを提案する。
シリーズ・トゥ・イメージ (S2I) と呼ばれる3つのモジュール、ユークリッド距離 (CRD) を用いたクラスタ・ベース・リサンプリング・アプローチ、変数・ベース・ロス (VBL) から構成される。
論文 参考訳(メタデータ) (2023-05-17T09:37:07Z) - Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value [17.340091573913316]
本研究では,バッジモデルのためのデータ評価手法であるData-OOBを提案する。
Data-OOBは、評価に106ドルのサンプルがあり、入力寸法が100である場合、1つのCPUプロセッサで2.25時間未満である。
提案手法は,誤ラベル付きデータを識別し,有用な(あるいは有害な)データポイントの集合を見出すことで,既存の最先端データ評価手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-16T08:03:58Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled
Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。
本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。
本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z) - Target-Independent Domain Adaptation for WBC Classification using
Generative Latent Search [20.199195698983715]
教師なしドメイン適応 (Unsupervised Domain Adaptation, UDA) 技術は、十分な量の不正なターゲットデータの存在を前提としている。
本稿では,対象データを必要としないUDAの手法を提案する。
情報源分布から無限個のデータポイントをサンプリングできることから,そのようなクローンの存在を証明した。
論文 参考訳(メタデータ) (2020-05-11T20:58:23Z) - Establishing strong imputation performance of a denoising autoencoder in
a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。
結果と最先端の計算手法を比較検討した。
開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文 参考訳(メタデータ) (2020-04-06T12:00:30Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。