論文の概要: HomeAdam: Adam and AdamW Algorithms Sometimes Go Home to Obtain Better Provable Generalization
- arxiv url: http://arxiv.org/abs/2603.02649v1
- Date: Tue, 03 Mar 2026 06:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.667657
- Title: HomeAdam: Adam and AdamW Algorithms Sometimes Go Home to Obtain Better Provable Generalization
- Title(参考訳): HomeAdam:AdamとAdamWのアルゴリズムは、予測可能な一般化を達成できる
- Authors: Feihu Huang, Guanyi Zhang, Songcan Chen,
- Abstract要約: モーメントベースのSGDを返却することで,効率的なAdamアルゴリズム(HomeAdam(W))のクラスを提案する。
我々は、HomeAdam(W) が$O(frac1N)$よりも小さい一般化誤差を持つことを証明している。
- 参考スコア(独自算出の注目度): 43.39364515909059
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Adam and AdamW are a class of default optimizers for training deep learning models in machine learning. These adaptive algorithms converge faster but generalize worse compared to SGD. In fact, their proved generalization error $O(\frac{1}{\sqrt{N}})$ also is larger than $O(\frac{1}{N})$ of SGD, where $N$ denotes training sample size. Recently, although some variants of Adam have been proposed to improve its generalization, their improved generalizations are still unexplored in theory. To fill this gap, in the paper, we restudy generalization of Adam and AdamW via algorithmic stability, and first prove that Adam and AdamW without square-root (i.e., Adam(W)-srf) have a generalization error $O(\frac{\hatρ^{-2T}}{N})$, where $T$ denotes iteration number and $\hatρ>0$ denotes the smallest element of second-order momentum plus a small positive number. To improve generalization, we propose a class of efficient clever Adam (i.e., HomeAdam(W)) algorithms via sometimes returning momentum-based SGD. Moreover, we prove that our HomeAdam(W) have a smaller generalization error $O(\frac{1}{N})$ than $O(\frac{\hatρ^{-2T}}{N})$ of Adam(W)-srf, since $\hatρ$ is generally very small. In particular, it is also smaller than the existing $O(\frac{1}{\sqrt{N}})$ of Adam(W). Meanwhile, we prove our HomeAdam(W) have a faster convergence rate of $O(\frac{1}{T^{1/4}})$ than $O(\frac{\breveρ^{-1}}{T^{1/4}})$ of the Adam(W)-srf, where $\breveρ\leq\hatρ$ also is very small. Extensive numerical experiments demonstrate efficiency of our HomeAdam(W) algorithms.
- Abstract(参考訳): AdamとAdamWは、機械学習でディープラーニングモデルをトレーニングするためのデフォルトオプティマイザのクラスである。
これらの適応アルゴリズムは、より高速に収束するが、SGDと比較してより良く一般化する。
実際、それらの証明された一般化誤差$O(\frac{1}{\sqrt{N}})$もまた、SGDの$O(\frac{1}{N})$よりも大きい。
近年、アダムのいくつかの変種は一般化を改善するために提案されているが、それらの改良された一般化は理論上はまだ解明されていない。
このギャップを埋めるために、アルゴリズム的安定性によってAdamとAdamWの一般化を再検討し、まずAdamとAdamWが平方根を持たない(すなわちAdam(W)-srf)一般化誤差$O(\frac{\hatρ^{-2T}}{N})$であることを証明する。
一般化を改善するために,時折運動量に基づくSGDを返却することで,効率的なAdamアルゴリズム(HomeAdam(W))を提案する。
さらに、我々のHomeAdam(W) がより小さい一般化誤差 $O(\frac{1}{N})$ より小さいことを証明している。
特に、既存の$O(\frac{1}{\sqrt{N}})$ of Adam(W)よりも小さい。
一方、我々のHomeAdam(W)が$O(\frac{1}{T^{1/4}})$より速い収束率を持つことを示す:$O(\frac {\breveρ^{-1}}{T^{1/4}})$ of Adam(W)-srf, ここでは$\breveρ\leq\hatρ$も非常に小さい。
大規模な数値実験は、HomeAdam(W)アルゴリズムの効率を実証する。
関連論文リスト
- Simple Convergence Proof of Adam From a Sign-like Descent Perspective [58.89890024903816]
我々は、Adamが以前の$cal O(fracln TTs14)$よりも$cal O(frac1Ts14)$の最適なレートを達成することを示す。
我々の理論分析は、収束を保証する重要な要因として運動量の役割に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-08T13:19:26Z) - Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity [6.270305440413688]
好ましくは $ell_infty$-geometry が SGD であるのに対して、Adam は影響を受けていない。
我々の実験は、好ましくは $ell_infty$-geometry が SGD であるのに対して、Adam が影響を受けていない場合、さらに悪化することを確認した。
論文 参考訳(メタデータ) (2024-10-10T17:58:53Z) - Adam-mini: Use Fewer Learning Rates To Gain More [29.170425801678952]
Adam-miniはAdamの学習率リソースを削減します。
Adam-miniは、メモリフットプリントが50%少ないAdamWよりも同等かそれ以上のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-24T16:56:41Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - A new regret analysis for Adam-type algorithms [78.825194932103]
理論的には、オンライン凸最適化に対する後悔の保証は、急速に崩壊する$beta_1to0$スケジュールを必要とする。
最適なデータ依存リセット境界を一定の$beta_1$で導出できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-21T19:19:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。