論文の概要: Accumulative SGD Influence Estimation for Data Attribution
- arxiv url: http://arxiv.org/abs/2510.26185v1
- Date: Thu, 30 Oct 2025 06:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.68794
- Title: Accumulative SGD Influence Estimation for Data Attribution
- Title(参考訳): データ属性に対する累積SGDの影響推定
- Authors: Yunxiao Shi, Shuo Yang, Yixin Su, Rui Zhang, Min Xu,
- Abstract要約: SGDIEは、エポックごとのサロゲートを和らげることで、アウト・ワン・アウト効果を近似し、エポック間化合物を無視する。
本稿では,ACCSGDを意識した評価手法を提案する。
- 参考スコア(独自算出の注目度): 19.004453441633984
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern data-centric AI needs precise per-sample influence. Standard SGD-IE approximates leave-one-out effects by summing per-epoch surrogates and ignores cross-epoch compounding, which misranks critical examples. We propose ACC-SGD-IE, a trajectory-aware estimator that propagates the leave-one-out perturbation across training and updates an accumulative influence state at each step. In smooth strongly convex settings it achieves geometric error contraction and, in smooth non-convex regimes, it tightens error bounds; larger mini-batches further reduce constants. Empirically, on Adult, 20 Newsgroups, and MNIST under clean and corrupted data and both convex and non-convex training, ACC-SGD-IE yields more accurate influence estimates, especially over long epochs. For downstream data cleansing it more reliably flags noisy samples, producing models trained on ACC-SGD-IE cleaned data that outperform those cleaned with SGD-IE.
- Abstract(参考訳): 現代のデータ中心のAIは、サンプルごとの正確な影響を必要とする。
標準SGD-IEは、エポックごとのサロゲートを和らげて残余効果を近似し、エポックのコンプレックスを無視し、批判的な例を間違える。
本稿では,各段階の累積的影響状態を更新し,トレーニング間での無作為な摂動を伝播する軌跡認識型推定器ACC-SGD-IEを提案する。
滑らかな凸条件下では幾何的誤差の収縮を達成し、滑らかな非凸条件では誤差境界を締め付け、より大きいミニバッチは定数をさらに減少させる。
経験的に、クリーンで破損したデータと凸トレーニングと非凸トレーニングの下のアダルト、20のニュースグループ、MNISTでは、ACC-SGD-IEは、特に長い時代を超えて、より正確な影響推定を得られる。
下流のデータクリーニングでは、ノイズの多いサンプルをより確実にフラグ付けし、ACC-SGD-IEでトレーニングされたモデルを作成し、SGD-IEでクリーニングされたサンプルより優れています。
関連論文リスト
- Revisiting Multivariate Time Series Forecasting with Missing Values [74.56971641937771]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - BayesTTA: Continual-Temporal Test-Time Adaptation for Vision-Language Models via Gaussian Discriminant Analysis [41.09181390655176]
CLIPのような視覚言語モデル(VLM)は、強いゼロショット認識を実現するが、実世界のシナリオに共通する時空間的な分散シフトの下で大幅に劣化する。
テスト分布が時間とともに徐々に変化するCT-TTA(textitContinal-Temporal Test-Time Adaptation)として、この実践的問題を定式化する。
我々は、時間的に一貫した予測を実行し、視覚表現を動的に調整する、ベイズ適応フレームワークであるtextitBayesTTAを提案する。
論文 参考訳(メタデータ) (2025-07-11T14:02:54Z) - Foundation for unbiased cross-validation of spatio-temporal models for species distribution modeling [2.6862667248315386]
種別分布モデル (SDM) はしばしば空間自己相関 (SAC) に悩まされ、性能推定に偏りが生じる。
提案手法は, ランダム分割, 空間的ブロッキング, 環境的スキーム, 新たな時間的手法である。
論文 参考訳(メタデータ) (2025-01-27T23:02:05Z) - Adversarial Purification by Consistency-aware Latent Space Optimization on Data Manifolds [48.37843602248313]
ディープニューラルネットワーク(DNN)は、クリーンデータに知覚不能な摂動を加えることで作られた敵のサンプルに対して脆弱であり、誤った危険な予測につながる可能性がある。
本稿では、事前学習された一貫性モデルの潜在空間内のベクトルを最適化し、クリーンなデータを復元するためのサンプルを生成する、一貫性モデルに基づく適応的パーフィケーション(CMAP)を提案する。
CMAPは、高い自然な精度を維持しながら、強力な敵攻撃に対する堅牢性を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-11T14:14:02Z) - EntropyStop: Unsupervised Deep Outlier Detection with Loss Entropy [19.154826741973277]
ロスエントロピー (Loss Entropy) と呼ばれるゼロラベルのエントロピー距離を損失分布として提案する。
また、損失エントロピーが最大モデル検出能力を示す場合、トレーニングを停止する自動早期停止アルゴリズムEntropyStopを開発した。
論文 参考訳(メタデータ) (2024-05-21T05:17:43Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Breaking Boundaries: Balancing Performance and Robustness in Deep
Wireless Traffic Forecasting [11.029214459961114]
正確性と堅牢性の間のトレードオフのバランスをとることは、時系列予測における長年の課題である。
本研究では,様々な摂動シナリオを考察し,実世界の通信データを用いた敵攻撃に対する防御機構を提案する。
論文 参考訳(メタデータ) (2023-11-16T11:10:38Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。