論文の概要: Imperfect Influence, Preserved Rankings: A Theory of TRAK for Data Attribution
- arxiv url: http://arxiv.org/abs/2602.01312v1
- Date: Sun, 01 Feb 2026 16:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.712295
- Title: Imperfect Influence, Preserved Rankings: A Theory of TRAK for Data Attribution
- Title(参考訳): 不完全な影響, 保存されたランク: データ属性に対するTRAKの理論
- Authors: Han Tong, Shubhangi Ghosh, Haolin Zou, Arian Maleki,
- Abstract要約: 本稿では、TRAKアルゴリズムの理論的解析を行い、その性能を特徴付け、手法が依存する近似による誤差を定量化する。
この近似は大きな誤差を生じるが、TRAKの推定値の影響はもともとの影響と強く相関しており、したがってデータポイントの相対的なランクを保っている。
- 参考スコア(独自算出の注目度): 10.662938465357158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data attribution, tracing a model's prediction back to specific training data, is an important tool for interpreting sophisticated AI models. The widely used TRAK algorithm addresses this challenge by first approximating the underlying model with a kernel machine and then leveraging techniques developed for approximating the leave-one-out (ALO) risk. Despite its strong empirical performance, the theoretical conditions under which the TRAK approximations are accurate as well as the regimes in which they break down remain largely unexplored. In this paper, we provide a theoretical analysis of the TRAK algorithm, characterizing its performance and quantifying the errors introduced by the approximations on which the method relies. We show that although the approximations incur significant errors, TRAK's estimated influence remains highly correlated with the original influence and therefore largely preserves the relative ranking of data points. We corroborate our theoretical results through extensive simulations and empirical studies.
- Abstract(参考訳): データ属性、モデルの予測を特定のトレーニングデータにトレースすることは、洗練されたAIモデルを解釈するための重要なツールである。
広く使われているTRAKアルゴリズムは、まず基盤となるモデルをカーネルマシンで近似し、その後、退避リスク(ALO)を近似するために開発された技術を活用することで、この問題に対処する。
その強い経験的性能にもかかわらず、TRAKの近似が正確である理論的な条件と、それらが崩壊する体制は未解明のままである。
本稿では、TRAKアルゴリズムの理論的解析を行い、その性能を特徴付け、提案手法が依存する近似による誤差を定量化する。
この近似は大きな誤差を生じるが、TRAKの推定値の影響はもともとの影響と強く相関しており、したがってデータポイントの相対的なランクを保っている。
我々は、広範囲なシミュレーションと実証研究を通じて理論結果を裏付ける。
関連論文リスト
- Multiply Robust Conformal Risk Control with Coarsened Data [0.0]
コンフォーマル予測(CP)は近年,膨大な関心を集めている。
本稿では、粗いデータから得られる結果に対して、分布自由な有効予測領域を得るという一般的な問題について考察する。
半パラメトリック理論の原則的利用は、フレキシブルな機械学習手法の促進の鍵となる利点を持つ。
論文 参考訳(メタデータ) (2025-08-21T12:14:44Z) - Revisiting Data Attribution for Influence Functions [13.88866465448849]
本稿では,ディープラーニングにおける影響関数のデータ帰属能力について概説する。
提案手法の理論的基礎, 効率的な逆ヘッセンベクトル積推定のためのアルゴリズムの最近の進歩, およびデータ帰属と誤ラベル検出の有効性について考察する。
論文 参考訳(メタデータ) (2025-08-10T11:15:07Z) - Do-PFN: In-Context Learning for Causal Effect Estimation [75.62771416172109]
予備データ適合ネットワーク(PFN)は, 合成データに基づいて事前学習を行い, 結果を予測する。
提案手法により,基礎となる因果グラフの知識を必要とせず,因果効果の正確な推定が可能となる。
論文 参考訳(メタデータ) (2025-06-06T12:43:57Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Understanding Fine-tuning in Approximate Unlearning: A Theoretical Perspective [39.958103832214135]
ファインチューニング(FT)手法は、未学習を近似するための基本的なアプローチの1つとなっている。
本稿では,線形回帰フレームワーク内での機械学習のためのFT法に関する最初の理論的解析を行う。
本稿では,残りのデータセットに基づいて重量分布マップを構築するRBM(Retention-Based Masking)戦略を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:01:52Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - A bandit-learning approach to multifidelity approximation [7.960229223744695]
マルチファイデリティ近似は、科学計算とシミュレーションにおいて重要な技術である。
異なる忠実度のデータを利用して正確な推定を行うためのバンディットラーニング手法を紹介します。
論文 参考訳(メタデータ) (2021-03-29T05:29:35Z) - Incorporating Causal Graphical Prior Knowledge into Predictive Modeling
via Simple Data Augmentation [92.96204497841032]
因果グラフ(CG)は、データ分散の背後にあるデータ生成プロセスの知識のコンパクトな表現である。
本研究では,条件付き独立性(CI)関係の事前知識を活用可能なモデルに依存しないデータ拡張手法を提案する。
本手法は,小データシステムにおける予測精度の向上に有効であることを実験的に示した。
論文 参考訳(メタデータ) (2021-02-27T06:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。