論文の概要: Adam Reduces a Unique Form of Sharpness: Theoretical Insights Near the Minimizer Manifold
- arxiv url: http://arxiv.org/abs/2511.02773v1
- Date: Tue, 04 Nov 2025 17:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.133159
- Title: Adam Reduces a Unique Form of Sharpness: Theoretical Insights Near the Minimizer Manifold
- Title(参考訳): アダムはシャープネスのユニークな形を減らした:最小限のマニフォールドに近い理論的考察
- Authors: Xinghan Li, Haodong Wen, Kaifeng Lyu,
- Abstract要約: 我々は、Adamが適応的な更新によって形作られた特異なシャープネス尺度を暗黙的に減少させ、グラディエント・ディクセントとは定性的に異なる解をもたらすことを示した。
より具体的には、損失が小さいとき、アダムは最小化器の多様体をさまようし、適応的な方法でこのシャープネス測度を最小化するために半勾配を取る。
- 参考スコア(独自算出の注目度): 14.185079197889806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the popularity of the Adam optimizer in practice, most theoretical analyses study Stochastic Gradient Descent (SGD) as a proxy for Adam, and little is known about how the solutions found by Adam differ. In this paper, we show that Adam implicitly reduces a unique form of sharpness measure shaped by its adaptive updates, leading to qualitatively different solutions from SGD. More specifically, when the training loss is small, Adam wanders around the manifold of minimizers and takes semi-gradients to minimize this sharpness measure in an adaptive manner, a behavior we rigorously characterize through a continuous-time approximation using stochastic differential equations. We further demonstrate how this behavior differs from that of SGD in a well-studied setting: when training overparameterized models with label noise, SGD has been shown to minimize the trace of the Hessian matrix, $\tr(\mH)$, whereas we prove that Adam minimizes $\tr(\Diag(\mH)^{1/2})$ instead. In solving sparse linear regression with diagonal linear networks, this distinction enables Adam to achieve better sparsity and generalization than SGD. Finally, our analysis framework extends beyond Adam to a broad class of adaptive gradient methods, including RMSProp, Adam-mini, Adalayer and Shampoo, and provides a unified perspective on how these adaptive optimizers reduce sharpness, which we hope will offer insights for future optimizer design.
- Abstract(参考訳): アダムオプティマイザが実際に人気があるにもかかわらず、最も理論的な分析はアダムの代用としてストーカスティック・グラディエント・ディクチュア (SGD) の研究であり、アダムの解がどう異なるかはほとんど分かっていない。
本稿では,Adamが適応的な更新によって形作られた特異なシャープネス尺度を暗黙的に削減し,SGDと定性的に異なる解をもたらすことを示す。
より具体的には、トレーニング損失が小さいとき、アダムは最小化器の多様体をさまようし、このシャープネス測度を適応的に最小化するために半漸進性を取る。
ラベルノイズを伴う過パラメータ化モデルのトレーニングでは、SGDはヘッセン行列のトレースを最小にすることが示され、一方Adamは$\tr(\Diag(\mH)^{1/2} を最小にする。
対角線ネットワークによる疎線型回帰の解法では、Adam は SGD よりも空間性や一般化が優れている。
最後に、我々の分析フレームワークは、Adamを超えて、RMSProp、Adam-mini、Adalayer、Shampooを含む幅広い適応的勾配法にまで拡張され、これらの適応的最適化器がシャープさを減らし、将来の最適化設計に対する洞察を提供することを期待しています。
関連論文リスト
- Understanding the Generalization of Stochastic Gradient Adam in Learning Neural Networks [38.11287525994738]
アダムの一般化にどのように影響するかに関する最初の理論的特徴を示す。
以上の結果から,AdamとAdamWはともに適切な重みの減衰を伴って貧弱なテスト誤差解に収束するが,そのミニバッチ変種はほぼゼロのテスト誤差を達成できることがわかった。
論文 参考訳(メタデータ) (2025-10-13T12:48:22Z) - The Rich and the Simple: On the Implicit Bias of Adam and SGD [26.722625797251553]
Adamは、いくつかのディープラーニングアプリケーションのためのデファクト最適化アルゴリズムである。
実際には、(確率的な)勾配降下(GD)で訓練されたニューラルネットワーク(NN)は、単純さのバイアスを示すことが知られている。
我々は、Adamがこのような単純さのバイアスに抵抗していることを示します。
論文 参考訳(メタデータ) (2025-05-29T21:46:12Z) - AdamS: Momentum Itself Can Be A Normalizer for LLM Pretraining and Post-training [22.58304858379219]
我々は,大規模言語モデル(LLM)の事前学習とポストトレーニングのための,Adamの簡易かつ効果的な代替手段であるAdamSを紹介した。
新たな分母、すなわち運動量と現在の勾配の重み付き和の根を利用することにより、AdamSは第二モーメント推定の必要性を排除している。
AdamSは効率が良く、SGDのメモリと計算フットプリントと運動量とを一致させ、優れた最適化性能を提供する。
論文 参考訳(メタデータ) (2025-05-22T08:16:48Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。