論文の概要: Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails
- arxiv url: http://arxiv.org/abs/2603.03099v2
- Date: Sun, 08 Mar 2026 18:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.300488
- Title: Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails
- Title(参考訳): アダムがSGDに勝てる理由: ノーマル化第2歩はシャーパー・テイルズ
- Authors: Ruinan Jin, Yingbin Liang, Shaofeng Zou,
- Abstract要約: 我々は、アダムにおける重要な第二モーメント正規化を発見し、アダムとSGDを区別する停止時間/マーチンゲール解析を開発した。
特に,2つの手法の高確率収束挙動の最初の理論的分離を確立する。
- 参考スコア(独自算出の注目度): 66.18297682243694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite Adam demonstrating faster empirical convergence than SGD in many applications, much of the existing theory yields guarantees essentially comparable to those of SGD, leaving the empirical performance gap insufficiently explained. In this paper, we uncover a key second-moment normalization in Adam and develop a stopping-time/martingale analysis that provably distinguishes Adam from SGD under the classical bounded variance model (a second moment assumption). In particular, we establish the first theoretical separation between the high-probability convergence behaviors of the two methods: Adam achieves a $δ^{-1/2}$ dependence on the confidence parameter $δ$, whereas corresponding high-probability guarantee for SGD necessarily incurs at least a $δ^{-1}$ dependence.
- Abstract(参考訳): 多くの応用において、AdamはSGDよりも高速な経験的収束を示すが、既存の理論の多くは基本的にSGDに匹敵する保証を与えており、経験的性能のギャップは十分に説明されていない。
本稿では,Adamにおける重要な第2モーメント正規化を明らかにし,古典的有界分散モデル(第2モーメント仮定)の下で,AdamとSGDを確実に区別する停止時間/マーチンゲール解析を開発した。
アダムは信頼パラメータ$δ$に対して$δ^{-1/2}$依存を達成するが、SGDの対応する高確率保証は少なくとも$δ^{-1}$依存をもたらす。
関連論文リスト
- Tight Long-Term Tail Decay of (Clipped) SGD in Non-Convex Optimization [62.48819955422706]
大規模偏差理論のレンズによるSGD法における長期のテール崩壊について検討する。
我々は、テールが以前よりもはるかに早く崩壊する体制を発見し、個々のランニングに対してより強力な長期保証を提供する。
論文 参考訳(メタデータ) (2026-02-05T13:41:13Z) - Simple Convergence Proof of Adam From a Sign-like Descent Perspective [58.89890024903816]
我々は、Adamが以前の$cal O(fracln TTs14)$よりも$cal O(frac1Ts14)$の最適なレートを達成することを示す。
我々の理論分析は、収束を保証する重要な要因として運動量の役割に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-08T13:19:26Z) - Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity [6.270305440413688]
好ましくは $ell_infty$-geometry が SGD であるのに対して、Adam は影響を受けていない。
我々の実験は、好ましくは $ell_infty$-geometry が SGD であるのに対して、Adam が影響を受けていない場合、さらに悪化することを確認した。
論文 参考訳(メタデータ) (2024-10-10T17:58:53Z) - On the Convergence of Adam under Non-uniform Smoothness: Separability from SGDM and Beyond [35.65852208995095]
我々は,非一様有界な滑らかさの条件下で,AdamがSGDMよりも高速な収束を実現することを示した。
その結果,(1)決定論的環境下では,Adamは決定論的一階の収束率の既知下限を達成でき,一方,GDM(Gradient Descent with Momentum)の収束率は初期関数値に高い順序依存性を持つことがわかった。
論文 参考訳(メタデータ) (2024-03-22T11:57:51Z) - High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise [59.25598762373543]
重み付き雑音の存在下でのストリーミングデータにおける学習の精度保証について検討した。
解析的に、与えられた問題に対する設定の選択に$ta$を使うことができることを実証する。
論文 参考訳(メタデータ) (2023-10-28T18:53:41Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - AdaSGD: Bridging the gap between SGD and Adam [14.886598905466604]
我々はSGDとAdamのパフォーマンスの潜在的な違いを同定する。
我々は、AdaSGDがSGD AdamとSGD非降下の両方の利点を組み合わせていることを実証する。
論文 参考訳(メタデータ) (2020-06-30T05:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。