論文の概要: Learning to Weight Parameters for Training Data Attribution
- arxiv url: http://arxiv.org/abs/2506.05647v2
- Date: Thu, 02 Oct 2025 17:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:19.981853
- Title: Learning to Weight Parameters for Training Data Attribution
- Title(参考訳): データ属性学習のための重みパラメータの学習
- Authors: Shuangqi Li, Hieu Le, Jingyi Xu, Mathieu Salzmann,
- Abstract要約: 本稿では,アノテートラベルを必要とせず,パラメータ重み付けをデータから直接明示的に学習する手法を提案する。
提案手法は,画像分類,言語モデリング,拡散など多種多様なタスクに対する帰属精度を向上し,主題やスタイルといった概念に対する微粒な帰属を可能にする。
- 参考スコア(独自算出の注目度): 62.830878652285406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study gradient-based data attribution, aiming to identify which training examples most influence a given output. Existing methods for this task either treat network parameters uniformly or rely on implicit weighting derived from Hessian approximations, which do not fully model functional heterogeneity of network parameters. To address this, we propose a method to explicitly learn parameter importance weights directly from data, without requiring annotated labels. Our approach improves attribution accuracy across diverse tasks, including image classification, language modeling, and diffusion, and enables fine-grained attribution for concepts like subject and style.
- Abstract(参考訳): 本研究では,どのトレーニング例が与えられた出力に最も影響するかを特定することを目的として,勾配に基づくデータ属性について検討する。
このタスクの既存の方法は、ネットワークパラメータを均一に扱うか、あるいは、ネットワークパラメータの関数的不均一性を十分にモデル化していないヘッセン近似から得られる暗黙の重み付けに依存する。
そこで本研究では,アノテートラベルを必要とせず,パラメータの重みを直接データから学習する手法を提案する。
提案手法は,画像分類,言語モデリング,拡散など多種多様なタスクに対する帰属精度を向上し,主題やスタイルといった概念に対する微粒な帰属を可能にする。
関連論文リスト
- Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - How Does Data Diversity Shape the Weight Landscape of Neural Networks? [2.89287673224661]
本稿では, ニューラルネットワークのパラメータ空間に対する降雨量, 重量減衰量, 騒音増大の影響について検討する。
我々は、多様なデータが、ドロップアウトと同様の方法で重量景観に影響を与えることを観察する。
合成データにより、実際の入力データにより多くの多様性がもたらされ、アウト・オブ・ディストリビューションテストインスタンスの性能が向上する、と結論付けている。
論文 参考訳(メタデータ) (2024-10-18T16:57:05Z) - Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
これらの課題に対処するための影響関数フレームワークを開発する。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - The Journey, Not the Destination: How Data Guides Diffusion Models [75.19694584942623]
大規模なデータセットでトレーニングされた拡散モデルは、顕著な品質と多様性のフォトリアリスティックなイメージを合成することができる。
i)拡散モデルの文脈でデータ属性の形式的概念を提供し、(ii)そのような属性を反実的に検証することを可能にする枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-11T08:39:43Z) - Tools for Verifying Neural Models' Training Data [29.322899317216407]
The Proof-of-Training-Data”では、モデルトレーナーがモデルの重みを発生させたトレーニングデータの検証を納得させることができる。
検証手順が多種多様な攻撃をキャッチできることを実験的に示す。
論文 参考訳(メタデータ) (2023-07-02T23:27:00Z) - Training Data Attribution for Diffusion Models [1.1733780065300188]
そこで本研究では,アンサンブルを用いて学習データが拡散モデルの出力にどのように影響するかを明らかにする新しい手法を提案する。
我々のアプローチでは、エンコードされたアンサンブル内の個々のモデルは、影響のあるトレーニング例の識別を可能にするために、訓練データ全体の分割を慎重に設計した上で訓練される。
得られたモデルアンサンブルは、トレーニングデータの影響の効率的なアブレーションを可能にし、トレーニングデータがモデル出力に与える影響を評価する。
論文 参考訳(メタデータ) (2023-06-03T18:36:12Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。