論文の概要: Understanding the Generalization of Stochastic Gradient Adam in Learning Neural Networks
- arxiv url: http://arxiv.org/abs/2510.11354v1
- Date: Mon, 13 Oct 2025 12:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.36787
- Title: Understanding the Generalization of Stochastic Gradient Adam in Learning Neural Networks
- Title(参考訳): ニューラルネットワーク学習における確率勾配アダムの一般化の理解
- Authors: Xuan Tang, Han Zhang, Yuan Cao, Difan Zou,
- Abstract要約: アダムの一般化にどのように影響するかに関する最初の理論的特徴を示す。
以上の結果から,AdamとAdamWはともに適切な重みの減衰を伴って貧弱なテスト誤差解に収束するが,そのミニバッチ変種はほぼゼロのテスト誤差を達成できることがわかった。
- 参考スコア(独自算出の注目度): 38.11287525994738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adam is a popular and widely used adaptive gradient method in deep learning, which has also received tremendous focus in theoretical research. However, most existing theoretical work primarily analyzes its full-batch version, which differs fundamentally from the stochastic variant used in practice. Unlike SGD, stochastic Adam does not converge to its full-batch counterpart even with infinitesimal learning rates. We present the first theoretical characterization of how batch size affects Adam's generalization, analyzing two-layer over-parameterized CNNs on image data. Our results reveal that while both Adam and AdamW with proper weight decay $\lambda$ converge to poor test error solutions, their mini-batch variants can achieve near-zero test error. We further prove Adam has a strictly smaller effective weight decay bound than AdamW, theoretically explaining why Adam requires more sensitive $\lambda$ tuning. Extensive experiments validate our findings, demonstrating the critical role of batch size and weight decay in Adam's generalization performance.
- Abstract(参考訳): アダムは、ディープラーニングにおいて広く使われている適応勾配法であり、理論研究にも多大な焦点をあてている。
しかし、既存の理論的な研究の多くは、主にそのフルバッチバージョンを分析しており、これは基本的に、実際に使用される確率的変種と異なる。
SGDとは異なり、確率的アダムは無限小の学習率であってもフルバッチに収束しない。
本稿では,バッチサイズがAdamの一般化にどのように影響するかを理論的に評価し,画像データ上で2層オーバーパラメータCNNを解析する。
この結果から,Adam とAdamW はともに適切な重み付けで$\lambda$ の貧弱なテストエラー解に収束するが,そのミニバッチ変種はほぼゼロに近いテストエラーを達成できることがわかった。
さらに、AdamがAdamWよりも厳密に小さな有効重量減衰を持つことを証明し、Adamがより敏感な$\lambda$チューニングを必要とする理由を理論的に説明します。
大規模な実験により,Adamの一般化性能におけるバッチサイズと重み劣化の重要な役割を実証した。
関連論文リスト
- The Rich and the Simple: On the Implicit Bias of Adam and SGD [22.211512632184398]
Adamは、いくつかのディープラーニングアプリケーションのためのデファクト最適化アルゴリズムである。
実際には、(確率的な)降下勾配(GD)で訓練されたニューラルネットワークは、単純さのバイアスを示すことが知られている。
我々は、Adamがこのような単純さのバイアスに抵抗していることを示します。
論文 参考訳(メタデータ) (2025-05-29T21:46:12Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。