論文の概要: Revisiting Data Attribution for Influence Functions
- arxiv url: http://arxiv.org/abs/2508.07297v1
- Date: Sun, 10 Aug 2025 11:15:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.795337
- Title: Revisiting Data Attribution for Influence Functions
- Title(参考訳): 影響関数に対するデータ属性の再検討
- Authors: Hongbo Zhu, Angelo Cangelosi,
- Abstract要約: 本稿では,ディープラーニングにおける影響関数のデータ帰属能力について概説する。
提案手法の理論的基礎, 効率的な逆ヘッセンベクトル積推定のためのアルゴリズムの最近の進歩, およびデータ帰属と誤ラベル検出の有効性について考察する。
- 参考スコア(独自算出の注目度): 13.88866465448849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of data attribution is to trace the model's predictions through the learning algorithm and back to its training data. thereby identifying the most influential training samples and understanding how the model's behavior leads to particular predictions. Understanding how individual training examples influence a model's predictions is fundamental for machine learning interpretability, data debugging, and model accountability. Influence functions, originating from robust statistics, offer an efficient, first-order approximation to estimate the impact of marginally upweighting or removing a data point on a model's learned parameters and its subsequent predictions, without the need for expensive retraining. This paper comprehensively reviews the data attribution capability of influence functions in deep learning. We discuss their theoretical foundations, recent algorithmic advances for efficient inverse-Hessian-vector product estimation, and evaluate their effectiveness for data attribution and mislabel detection. Finally, highlighting current challenges and promising directions for unleashing the huge potential of influence functions in large-scale, real-world deep learning scenarios.
- Abstract(参考訳): データ帰属の目標は、学習アルゴリズムを通じてモデルの予測を追跡し、トレーニングデータに戻ることである。
これにより、最も影響力のあるトレーニングサンプルを特定し、モデルの振る舞いがどのように特定の予測につながるかを理解する。
個々のトレーニング例がモデルの予測にどのように影響するかを理解することは、機械学習の解釈可能性、データデバッギング、モデル説明責任に不可欠である。
ロバストな統計から派生した影響関数は、高額なリトレーニングを必要とせず、モデルが学習したパラメータとその後の予測に対する差分アップウェイトやデータポイントの除去の影響を推定する、効率的な一階述語近似を提供する。
本稿では,ディープラーニングにおける影響関数のデータ帰属能力について概説する。
提案手法の理論的基礎, 効率的な逆ヘッセンベクトル積推定のためのアルゴリズムの最近の進歩, およびデータ帰属と誤ラベル検出の有効性について考察する。
最後に、現在の課題と、大規模で現実世界のディープラーニングシナリオにおける影響関数の巨大な可能性を解き放つための有望な方向性を強調します。
関連論文リスト
- Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
これらの課題に対処するための影響関数フレームワークを開発する。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models [36.05242956018461]
本稿では,影響関数と外乱勾配検出による有害トレーニングサンプルの同定とを橋渡しする。
まず, 合成データセットにおける外乱勾配解析手法の仮説を検証した。
次に、視覚モデルにおける誤ラベルサンプルの検出と、自然言語処理トランスフォーマーモデルの性能向上のためのデータサンプル選択の有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T21:34:46Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Understanding Influence Functions and Datamodels via Harmonic Analysis [36.86262318584668]
個々のデータポイントがテストデータに対するモデルの予測に与える影響を推定する。
それらは、データ中毒の検出、有用で有害な例の検出、データポイントのグループの影響などに使われる。
近年、Ilyasら[2022]は、データモデルと呼ばれる線形回帰手法を導入し、テストデータに対するトレーニングポイントの効果を予測した。
本稿では,このような興味深い経験的現象の理論的理解を深めることを目的とする。
論文 参考訳(メタデータ) (2022-10-03T16:45:33Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Influence Functions in Deep Learning Are Fragile [52.31375893260445]
影響関数は、テスト時間予測におけるサンプルの効果を近似する。
影響評価は浅いネットワークでは かなり正確です
ヘッセン正則化は、高品質な影響推定を得るために重要である。
論文 参考訳(メタデータ) (2020-06-25T18:25:59Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。