論文の概要: How Faithful Is Trajectory-Based Data Attribution? Error Sources, Remedies, and Practical Guidelines
- arxiv url: http://arxiv.org/abs/2605.18814v1
- Date: Tue, 12 May 2026 09:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.354372
- Title: How Faithful Is Trajectory-Based Data Attribution? Error Sources, Remedies, and Practical Guidelines
- Title(参考訳): トラジェクトリに基づくデータ属性はどの程度忠実か?
- Authors: Junwei Deng, Pingbang Hu, Suliang Jin, Hao Lu, Jiachen T. Wang, Shichang Zhang, Jiaqi W. Ma,
- Abstract要約: トラジェクトリに基づくデータ帰属法は、トレーニングの軌跡をアンロールすることで、モデル予測に対するトレーニングサンプルの影響を推定する。
これらの手法の包括的なエラー解析が欠如しており、メソッドの忠実性に対する懸念を高め、信頼性の高いデプロイメントを妨げる。
本稿では,トラジェクトリに基づくデータ属性における誤り源の体系的解析と,これらを緩和するための具体的対策,および下流利用のための実践的ガイドラインについて述べる。
- 参考スコア(独自算出の注目度): 21.57090069950487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trajectory-based data attribution methods estimate the influence of training samples on model predictions by unrolling the training trajectory. They are widely used in applications such as data selection, data valuation, and model diagnosis, but there is a lack of comprehensive error analysis of these methods, raising concerns about method faithfulness and hindering reliable deployment. In this work, we provide the first systematic analysis of error sources in trajectory-based data attribution, together with concrete remedies to mitigate them and practical guidelines for downstream use. We organize the total error into three categories, config-level, algorithm-level, and system-level. We make three contributions. First, we identify optimizer mismatch as the dominant config-level error: existing methods derive their attribution under the assumption of SGD, even for models trained with the modern de facto optimizer AdamW. We propose AdamW-influence to fully account for AdamW's optimization dynamics, yielding improvements from 10% to over 300% in Spearman correlation between estimated and ground-truth influence across four settings spanning MLP, CNN, GPT-2, and Llama 3.2-1B. Second, we isolate the remaining algorithm-level error arising from the first-order Taylor approximation, identify the learning rate and trajectory length as factors governing the error magnitude, and derive a closed-form error proxy that can be evaluated along the original trajectory without retraining. Third, we translate these insights into practical guidelines for data selection by unifying offline and online strategies under a K-step look-ahead framework. Under this framework, online selection with a short horizon often matches or exceeds offline, and the optimal horizon can be tuned jointly with the learning rate. Together, these results turn the framework into an actionable selection recipe for practitioners.
- Abstract(参考訳): トラジェクトリに基づくデータ帰属法は、トレーニングの軌跡をアンロールすることで、モデル予測に対するトレーニングサンプルの影響を推定する。
データ選択、データアセスメント、モデル診断などのアプリケーションで広く使われているが、これらの手法の包括的なエラー分析が欠如しており、メソッドの忠実性に対する懸念が高まり、信頼性の高いデプロイメントを妨げる。
本研究は,トラジェクトリに基づくデータ属性における誤り源の体系的解析と,これらを緩和するための具体的対策,および下流利用のための実践的ガイドラインを提供する。
総エラーを,構成レベル,アルゴリズムレベル,システムレベルという3つのカテゴリに分類する。
私たちは3つの貢献をします。
既存の手法は、現代のデファクト・オプティマイザAdamWで訓練されたモデルであっても、SGDの仮定の下でそれらの属性を導出する。
我々は,AdamWの最適化力学を完全に考慮し,MLP,CNN,GPT-2,Llama 3.2-1Bの4つの設定において,スピアマン相関の10%から300%以上の改善をもたらすAdamW-influenceを提案する。
第2に,第1次テイラー近似から生じる残りのアルゴリズムレベルの誤差を分離し,学習率と軌道長を誤差大を規定する要因として同定し,元の軌道に沿って再学習することなく評価可能な閉形式誤差プロキシを導出する。
第三に、これらの知見を、Kステップのルックアヘッドフレームワークの下でオフラインおよびオンライン戦略を統合することにより、データ選択のための実践的なガイドラインに変換する。
この枠組みの下では、短い地平線を持つオンライン選択は、しばしばオフラインに一致または超え、最適な地平線は学習率とともに調整できる。
これらの結果は、実践者にとって、フレームワークを実用的な選択レシピに変えます。
関連論文リスト
- Forecasting Downstream Performance of LLMs With Proxy Metrics [37.61408486519996]
本稿では,トークンレベルの統計値(エントロピー,トップk精度,エキスパートトークンランクなど)を集約することで,プロキシメトリクスを構築することを提案する。
3つの設定で、我々のプロキシは損失ベースのベースラインと計算ベースのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-18T16:17:15Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Debiased Recommendation with Noisy Feedback [41.38490962524047]
収集データ中のMNARとOMEから予測モデルの非バイアス学習に対する交差点脅威について検討する。
まず, OME-EIB, OME-IPS, OME-DR推定器を設計する。
論文 参考訳(メタデータ) (2024-06-24T23:42:18Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Robust and Explainable Fine-Grained Visual Classification with Transfer Learning: A Dual-Carriageway Framework [0.799543372823325]
我々は、Dual-Carriageway Framework (DCF) という自動ベストスーツトレーニングソリューション検索フレームワークを提案する。
3つの畳み込みニューラルネットワーク(ResNet18、ResNet34、Inception-v3)を用いてDCFの有効性を検証する。
その結果、既存のデータセットと新しいデータセットでそれぞれ2.13%、1.23%の微調整パスのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-05-09T15:41:10Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - RoCourseNet: Distributionally Robust Training of a Prediction Aware
Recourse Model [29.057300578765663]
RoCourseNetは、将来のデータシフトに対して堅牢な予測とリコースを共同で最適化するトレーニングフレームワークである。
RoCourseNetは、ロバストな妥当性を96%以上達成し、ロバストな説明を生成する上で、最先端のベースラインを少なくとも10%上回っていることを示す。
論文 参考訳(メタデータ) (2022-06-01T18:18:18Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Test-time Batch Statistics Calibration for Covariate Shift [66.7044675981449]
我々は,推論中に深層モデルを新しい環境に適応させることを提案する。
バッチ統計の校正に$alpha$-BNの一般的な定式化を提案する。
また、統合テスト時間適応フレームワークCoreを形成するための新しい損失関数も提示する。
論文 参考訳(メタデータ) (2021-10-06T08:45:03Z) - BiFair: Training Fair Models with Bilevel Optimization [8.2509884277533]
我々は,ユーティリティの最小化と公正な関心の喪失を両立させる,BiFairという新しいトレーニングアルゴリズムを開発した。
我々のアルゴリズムは、常により良い性能、すなわち、与えられた公正度メトリックのより優れた値、あるいはより高い精度で到達する。
論文 参考訳(メタデータ) (2021-06-03T22:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。