論文の概要: Simple Convergence Proof of Adam From a Sign-like Descent Perspective
- arxiv url: http://arxiv.org/abs/2507.05966v1
- Date: Tue, 08 Jul 2025 13:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.13236
- Title: Simple Convergence Proof of Adam From a Sign-like Descent Perspective
- Title(参考訳): サインライクな輝きから見たアダムの簡単な収束証明
- Authors: Hanyang Peng, Shuang Qin, Yue Yu, Fangqing Jiang, Hui Wang, Zhouchen Lin,
- Abstract要約: 我々は、Adamが以前の$cal O(fracln TTs14)$よりも$cal O(frac1Ts14)$の最適なレートを達成することを示す。
我々の理論分析は、収束を保証する重要な要因として運動量の役割に関する新たな洞察を提供する。
- 参考スコア(独自算出の注目度): 58.89890024903816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adam is widely recognized as one of the most effective optimizers for training deep neural networks (DNNs). Despite its remarkable empirical success, its theoretical convergence analysis remains unsatisfactory. Existing works predominantly interpret Adam as a preconditioned stochastic gradient descent with momentum (SGDM), formulated as $\bm{x}_{t+1} = \bm{x}_t - \frac{\gamma_t}{{\sqrt{\bm{v}_t}+\epsilon}} \circ \bm{m}_t$. This perspective necessitates strong assumptions and intricate techniques, resulting in lengthy and opaque convergence proofs that are difficult to verify and extend. In contrast, we propose a novel interpretation by treating Adam as a sign-like optimizer, expressed as $\bm{x}_{t+1} = \bm{x}_t - \gamma_t \frac{|\bm{m}_t|}{{\sqrt{\bm{v}_t}+\epsilon}} \circ {\rm Sign}(\bm{m}_t)$. This reformulation significantly simplifies the convergence analysis. For the first time, with some mild conditions, we prove that Adam achieves the optimal rate of ${\cal O}(\frac{1}{T^{\sfrac{1}{4}}})$ rather than the previous ${\cal O} \left(\frac{\ln T}{T^{\sfrac{1}{4}}}\right)$ under weak assumptions of the generalized $p$-affine variance and $(L_0, L_1, q)$-smoothness, without dependence on the model dimensionality or the numerical stability parameter $\epsilon$. Additionally, our theoretical analysis provides new insights into the role of momentum as a key factor ensuring convergence and offers practical guidelines for tuning learning rates in Adam, further bridging the gap between theory and practice.
- Abstract(参考訳): Adam氏は、ディープニューラルネットワーク(DNN)をトレーニングするための最も効果的なオプティマイザの1つとして広く認識されている。
その顕著な経験的成功にもかかわらず、理論収束解析は相変わらず不満足である。
既存の研究は、アダムを運動量を持つ事前条件付き確率勾配降下(SGDM)として解釈し、$\bm{x}_{t+1} = \bm{x}_t - \frac{\gamma_t}{{\sqrt{\bm{v}_t}+\epsilon}} \circ \bm{m}_t$と定式化している。
この観点は強い仮定と複雑な手法を必要とし、検証と拡張が難しい長く不透明な収束証明をもたらす。
対照的に、Adamを符号様最適化器として扱い、$\bm{x}_{t+1} = \bm{x}_t - \gamma_t \frac{|\bm{m}_t|}{{\sqrt{\bm{v}_t}+\epsilon}} \circ {\rm Sign}(\bm{m}_t)$と表現する新しい解釈を提案する。
この改定は収束解析を著しく単純化する。
いくつかの穏やかな条件で、アダムが以前の${\cal O} \left(\frac{\ln T}{T^{\sfrac{1}{4}}}\right)$よりも${\cal O}(\frac{1}{T^{\sfrac{1}{4}}})$の最適率を達成することを初めて証明した。
さらに、我々の理論分析は、収束の鍵となる要因として運動量の役割に関する新たな洞察を提供し、アダムの学習率をチューニングするための実践的ガイドラインを提供し、理論と実践のギャップをさらに埋める。
関連論文リスト
- On the $O(\frac{\sqrt{d}}{K^{1/4}})$ Convergence Rate of AdamW Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、$ell_$ノルムで測定されたAdamWの収束率$frac1Ksum_k=1KEleft[|nabla f(xk)|_1right]leq O(fracsqrtdCK1/4)を確立する。
論文 参考訳(メタデータ) (2025-05-17T05:02:52Z) - Adam Exploits $\ell_\infty$-geometry of Loss Landscape via Coordinate-wise Adaptivity [6.270305440413688]
好ましくは $ell_infty$-geometry が SGD であるのに対して、Adam は影響を受けていない。
我々の実験は、好ましくは $ell_infty$-geometry が SGD であるのに対して、Adam が影響を受けていない場合、さらに悪化することを確認した。
論文 参考訳(メタデータ) (2024-10-10T17:58:53Z) - Convergence Guarantees for RMSProp and Adam in Generalized-smooth Non-convex Optimization with Affine Noise Variance [23.112775335244258]
我々はまず,適応学習率を持つAdamの特殊なケースであるRMSPropを分析する。
我々は、勾配ノルムの関数でもある降下補題において、新しい上界一階項を開発する。
RMSPropとAdamの両者の結果は、citearvani2023lowerで確立された複雑さと一致した。
論文 参考訳(メタデータ) (2024-04-01T19:17:45Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。