論文の概要: In-Run Data Shapley for Adam Optimizer
- arxiv url: http://arxiv.org/abs/2602.00329v1
- Date: Fri, 30 Jan 2026 21:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.121096
- Title: In-Run Data Shapley for Adam Optimizer
- Title(参考訳): アダム最適化のための実行中のデータ共有
- Authors: Meng Ding, Zeqing Zhang, Di Wang, Lijie Hu,
- Abstract要約: 本稿では,Adam-Aware In-Run Data Shapleyを提案する。
本手法は, 標準トレーニングの95%を保ちながら, グラウンドピアソン限界貢献に対するほぼ完全な忠実度を実現する。
- 参考スコア(独自算出の注目度): 13.904612598915165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable data attribution is essential for mitigating bias and reducing computational waste in modern machine learning, with the Shapley value serving as the theoretical gold standard. While recent "In-Run" methods bypass the prohibitive cost of retraining by estimating contributions dynamically, they heavily rely on the linear structure of Stochastic Gradient Descent (SGD) and fail to capture the complex dynamics of adaptive optimizers like Adam. In this work, we demonstrate that data attribution is inherently optimizer-dependent: we show that SGD-based proxies diverge significantly from true contributions under Adam (Pearson $R \approx 0.11$), rendering them ineffective for modern training pipelines. To bridge this gap, we propose Adam-Aware In-Run Data Shapley. We derive a closed-form approximation that restores additivity by redefining utility under a fixed-state assumption and enable scalable computation via a novel Linearized Ghost Approximation. This technique linearizes the variance-dependent scaling term, allowing us to compute pairwise gradient dot-products without materializing per-sample gradients. Extensive experiments show that our method achieves near-perfect fidelity to ground-truth marginal contributions ($R > 0.99$) while retaining $\sim$95\% of standard training throughput. Furthermore, our Adam-aware attribution significantly outperforms SGD-based baselines in data attribution downstream tasks.
- Abstract(参考訳): 信頼性のあるデータ帰属は、現代の機械学習におけるバイアスの軽減と計算廃棄物の削減に不可欠である。
最近の"In-Run"手法は、コントリビューションを動的に推定することで、リトレーニングの禁止コストを回避しているが、SGD(Stochastic Gradient Descent)の線形構造に大きく依存しており、Adamのような適応オプティマイザの複雑なダイナミクスを捉えていない。
本研究では,SGDをベースとしたプロキシがAdam(Pearson $R \approx 0.11$)の下での真のコントリビューションと大きく異なっており,現代のトレーニングパイプラインでは有効ではないことを示す。
このギャップを埋めるため、Adam-Aware In-Run Data Shapleyを提案する。
固定状態の仮定でユーティリティを再定義することで加算率を復元し、新しい線形化ゴースト近似を用いてスケーラブルな計算を可能にするクローズドフォーム近似を導出する。
この手法は分散依存性のスケーリング項を線形化し、サンプルごとの勾配を具現化することなく、一対の勾配のドット積を計算できる。
実験の結果,本手法は,標準トレーニングスループットの$\sim$95\%を維持しながら,ほぼ完全な完全性(R > 0.99$)が得られることがわかった。
さらに、Adam-Aware属性は、データ属性の下流タスクにおいて、SGDベースのベースラインを著しく上回ります。
関連論文リスト
- Adam Reduces a Unique Form of Sharpness: Theoretical Insights Near the Minimizer Manifold [14.185079197889806]
我々は、Adamが適応的な更新によって形作られた特異なシャープネス尺度を暗黙的に減少させ、グラディエント・ディクセントとは定性的に異なる解をもたらすことを示した。
より具体的には、損失が小さいとき、アダムは最小化器の多様体をさまようし、適応的な方法でこのシャープネス測度を最小化するために半勾配を取る。
論文 参考訳(メタデータ) (2025-11-04T17:58:57Z) - Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - A Simplified Analysis of SGD for Linear Regression with Weight Averaging [64.2393952273612]
最近の研究は、定常学習率を用いた線形回帰におけるSGD最適化のためのシャープレートを提供する。
簡単な線形代数ツールを用いて,2021ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグネグニグニグニグニグネグニグニグネグニ
我々の研究は線形回帰の勾配勾配を非常に容易に解析し、ミニバッチと学習率のスケジューリングのさらなる分析に役立てることができると信じている。
論文 参考訳(メタデータ) (2025-06-18T15:10:38Z) - SIM-Shapley: A Stable and Computationally Efficient Approach to Shapley Value Approximation [10.009607907227293]
共有値(SV)法は、複雑なモデルにおける特徴帰属の原則的な枠組みを提供するが、高い計算コストがかかる。
最適化にインスパイアされた安定かつ効率的な近似法である,共有値近似のための反復モーメント(SIM-Shapley)を提案する。
我々の数値実験では、SIM-Shapleyは最先端のベースラインと比較して計算時間を最大85%削減する。
論文 参考訳(メタデータ) (2025-05-13T03:23:10Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - SIMPLE: A Gradient Estimator for $k$-Subset Sampling [42.38652558807518]
この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。
勾配推定器 SIMPLE は, 最先端推定器と比較して, バイアスやばらつきが低いことを示す。
実験結果から,線形回帰を説明・スパースする学習性能が向上した。
論文 参考訳(メタデータ) (2022-10-04T22:33:16Z) - The Power and Limitation of Pretraining-Finetuning for Linear Regression
under Covariate Shift [127.21287240963859]
本研究では,対象データに基づく事前学習と微調整を併用した伝達学習手法について検討する。
大規模な線形回帰インスタンスの場合、$O(N2)$ソースデータによる転送学習は、$N$ターゲットデータによる教師あり学習と同じくらい効果的である。
論文 参考訳(メタデータ) (2022-08-03T05:59:49Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。