論文の概要: Adapt or Forget: Provable Tradeoffs Between Adam and SGD in Nonstationary Optimization
- arxiv url: http://arxiv.org/abs/2605.04269v1
- Date: Tue, 05 May 2026 20:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.531998
- Title: Adapt or Forget: Provable Tradeoffs Between Adam and SGD in Nonstationary Optimization
- Title(参考訳): Adapt or Forget:非定常最適化におけるAdamとSGDのトレードオフ
- Authors: Sharan Sahu, Abir Sarkar, Cameron J. Hogan, Martin T. Wells,
- Abstract要約: 本研究では,非定常目標下でのAdamの理論的解析を行い,Adam-preconditioned mean-gradient operatorの適応的な強い単調性の下でのユークリッド追跡と,一般の$L$-smooth目的下での高確率な定常性保証とを分離する。
ノイズに支配されたレシエーションでは、第一モーメント平均化と適応的プレコンディショニングは高い確率誤差を改善することができるが、ドリフトに支配されたレシエーションでは、第一モーメント情報とプレコンディショナーの摂動は非定常性のコストを複雑化し、バニラはより小さなトラッキングフロアを達成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide a theoretical analysis of Adam under non-stationary stochastic objectives, separating two regimes: Euclidean tracking under adaptive strong monotonicity of the Adam-preconditioned mean-gradient operator, and high-probability projected stationarity guarantees under general $L$-smooth objectives. In the tracking regime, we derive finite-time expected and high-probability bounds that decompose sharply into four components: initialization, objective drift, a first-moment tracking error governed by $β_1$, and a preconditioner perturbation governed by $β_2$. We characterize the burn-in time to reach Adam's irreducible tracking floor under constant and step-decay schedules. We also prove a high-probability bound on the average projected stationarity gap for Adam under distribution shift. Across both analyses, our bounds reveal a noise--drift tradeoff: in noise-dominated regimes, first-moment averaging and adaptive preconditioning can improve the high-probability error, whereas in drift-dominated regimes, stale first-moment information and preconditioner perturbations can compound the cost of nonstationarity, allowing vanilla SGD to achieve a smaller tracking floor. Our explicit $(β_1,β_2,ε)$-dependent bounds delineate when adaptive step-sizing is beneficial versus harmful, and provide a theoretical mechanism for Adam's empirical instability and stabilization under distribution shift.
- Abstract(参考訳): 我々は,非定常確率的目的の下でAdamの理論解析を行い,Adam-preconditioned mean-gradient operatorの適応的な強い単調性の下でのユークリッド追跡と,一般の$L$-smooth目的下での高確率な定常性保証とを分離する。
追従系では, 初期化, 客観的ドリフト, 第一モーメント追跡誤差を$β_1$, プレコンディショナー摂動を$β_2$とする。
我々は,Adamの既約追跡フロアに到達するためのバーンイン時間を,一定かつ段階的なスケジュールで特徴付ける。
また,分布シフト下でのAdamの予測された平均定常性ギャップに高い確率で束縛されることを証明した。
騒音支配型では、第一モーメント平均および適応型プレコンディショニングは高い確率誤差を改善することができるが、ドリフト支配型では、第一モーメント情報とプレコンディショナーの摂動は非定常性のコストを複雑にし、バニラSGDはより小さなトラッキングフロアを達成できる。
我々の明示的な$(β_1,β_2,ε)$-dependent boundsは、適応的なステップサイズが有益か有害かの場合にデライン化し、分布シフトの下でのアダムの経験的不安定性と安定化の理論的メカニズムを提供する。
関連論文リスト
- Mitigating Error Amplification in Fast Adversarial Training [58.74042726356826]
FAT(Fast Adversarial Training)は、ネットワークに摂動不変表現の学習を促すことによって、モデルロバスト性の向上に有効であることが証明されている。
FATは、しばしば破滅的なオーバーフィッティング(CO)に悩まされ、モデルがトレーニングアタックに過度に適合し、目に見えないものへの一般化に失敗する。
本稿では、摂動予算と監視信号の両方を動的に調整する分散対応動的ガイダンス(DDG)戦略を提案する。
論文 参考訳(メタデータ) (2026-04-27T11:23:18Z) - Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails [66.18297682243694]
我々は、アダムにおける重要な第二モーメント正規化を発見し、アダムとSGDを区別する停止時間/マーチンゲール解析を開発した。
特に,2つの手法の高確率収束挙動の最初の理論的分離を確立する。
論文 参考訳(メタデータ) (2026-03-03T15:34:51Z) - Convex and Non-convex Federated Learning with Stale Stochastic Gradients: Diminishing Step Size is All You Need [6.783562149597588]
ローカルエージェントは、自身のデータと計算を利用して、エージェントのローカルコスト関数からなる目的を最小化するために、中央サーバを支援する。
各エージェントは、その局所的な目的の伝達バイアスと遅延推定を許される。
論文 参考訳(メタデータ) (2026-03-03T06:09:19Z) - Gradients Must Earn Their Influence: Unifying SFT with Generalized Entropic Objectives [22.29000001610794]
Supervised Fine-Tuning (SFT) の標準的な負の対数構造は、均一なトークンレベルの重み付けを適用する。
この剛性は2重の障害モードを生成する: (i)低確率目標を過度に強調することは、ノイズの監督の勾配を増幅し、頑健な事前を妨害し、 (ii)一様重み付けは、モデルが既に自信を持っているときに弱いシャープニングを与える。
既存の方法は可塑性の解決に失敗し、不安定なジレンマがしばしば有害なジレンマとともに必要な学習信号を抑圧する。
パラメータ自由度を変調する動的エントロピーファインチューニング(DEFT)を導入する。
論文 参考訳(メタデータ) (2026-02-11T22:56:43Z) - Bulk-Calibrated Credal Ambiguity Sets: Fast, Tractable Decision Making under Out-of-Sample Contamination [8.826173150779145]
分散ロバストな最適化(DRO)は、あいまいさセットよりも最悪のケースで予想される損失を最小化する。
我々は,IPクレダルセットが,解釈可能な許容レベルを持つDRO目標にどのように変換されるかを示す。
論文 参考訳(メタデータ) (2026-01-29T06:37:36Z) - Learning bounds for doubly-robust covariate shift adaptation [8.24901041136559]
トレーニングドメインとテストドメイン間の分散シフトは、マシンラーニングにとって重要な課題である。
Doubly-robust (DR) 推定器は、密度比推定とパイロット回帰モデルを組み合わせる。
本稿では,DR推定器の非漸近学習境界を初めて確立する。
論文 参考訳(メタデータ) (2025-11-14T06:46:23Z) - Distributionally Robust Optimization with Bias and Variance Reduction [9.341215359733601]
勾配に基づくアルゴリズムであるProspectは、スムーズな正規化損失に対する線形収束を享受していることを示す。
また、勾配法のようなベースラインよりも2~3$times$早く収束できることも示している。
論文 参考訳(メタデータ) (2023-10-21T00:03:54Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Consistency Regularization for Certified Robustness of Smoothed
Classifiers [89.72878906950208]
最近のランダムな平滑化技術は、最悪の$ell$-robustnessを平均ケースのロバストネスに変換することができることを示している。
その結果,スムーズな分類器の精度と信頼性の高いロバスト性とのトレードオフは,ノイズに対する予測一貫性の規則化によって大きく制御できることが判明した。
論文 参考訳(メタデータ) (2020-06-07T06:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。