論文の概要: Towards Understanding Adam Convergence on Highly Degenerate Polynomials
- arxiv url: http://arxiv.org/abs/2603.09581v1
- Date: Tue, 10 Mar 2026 12:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.302996
- Title: Towards Understanding Adam Convergence on Highly Degenerate Polynomials
- Title(参考訳): 高退化多項式におけるアダム収束の理解に向けて
- Authors: Zhiwei Bai, Jiajie Zhao, Zhangchen Zhou, Zhi-Qin John Xu, Yaoyu Zhang,
- Abstract要約: アダムの「自然」自己収束特性について検討する。
我々は、アダムがスケジューラを追加せずに自動的に収束する高度退化のクラスを見つける。
アダムがこれらの関数の局所線型収束を退化させ、グラディエント Descent と Momentum の部分収束を著しく上回っていることを証明した。
- 参考スコア(独自算出の注目度): 12.224244942795695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adam is a widely used optimization algorithm in deep learning, yet the specific class of objective functions where it exhibits inherent advantages remains underexplored. Unlike prior studies requiring external schedulers and $β_2$ near 1 for convergence, this work investigates the "natural" auto-convergence properties of Adam. We identify a class of highly degenerate polynomials where Adam converges automatically without additional schedulers. Specifically, we derive theoretical conditions for local asymptotic stability on degenerate polynomials and demonstrate strong alignment between theoretical bounds and experimental results. We prove that Adam achieves local linear convergence on these degenerate functions, significantly outperforming the sub-linear convergence of Gradient Descent and Momentum. This acceleration stems from a decoupling mechanism between the second moment $v_t$ and squared gradient $g_t^2$, which exponentially amplifies the effective learning rate. Finally, we characterize Adam's hyperparameter phase diagram, identifying three distinct behavioral regimes: stable convergence, spikes, and SignGD-like oscillation.
- Abstract(参考訳): アダムはディープラーニングにおいて広く使われている最適化アルゴリズムであるが、固有の優位性を示す目的関数の特定のクラスは未探索のままである。
外部スケジューラと収束のための$β_2$近辺1を必要とする以前の研究とは異なり、この研究はアダムの「自然な」自己収束特性を研究する。
我々は、アダムが余分なスケジューラなしで自動的に収束する高退化多項式のクラスを同定する。
具体的には、退化多項式の局所漸近安定性の理論条件を導出し、理論境界と実験結果の強い整合性を示す。
我々はAdamがこれらの退化関数の局所線型収束を達成し、グラディエント Descent と Momentum の線型収束を著しく上回っていることを証明した。
この加速は、第2モーメント$v_t$と2乗勾配$g_t^2$の分離機構に起因し、有効学習率を指数関数的に増幅する。
最後に、アダムのハイパーパラメータ・フェーズ・ダイアグラムを特徴付け、安定収束、スパイク、SignGDのような振動の3つの異なる行動状態を特定する。
関連論文リスト
- High Probability Convergence of Adam Under Unbounded Gradients and
Affine Variance Noise [4.9495085874952895]
我々はAdamが高い確率で定常点に収束できることを示し、$mathcalOleft(rm poly(log T)/sqrtTright)$を座標ワイドな「アフィン」ノイズ分散の下で表す。
また、Adamの閉包は$mathcalOleft(rm poly(left T)right)$の順序でノイズレベルに適応していることも明らかにされている。
論文 参考訳(メタデータ) (2023-11-03T15:55:53Z) - Closing the Gap Between the Upper Bound and the Lower Bound of Adam's
Iteration Complexity [51.96093077151991]
我々はAdamの新しい収束保証を導出し、$L$-smooth条件と有界雑音分散仮定のみを導出する。
本証明は,運動量と適応学習率の絡み合いを扱うために,新しい手法を利用する。
論文 参考訳(メタデータ) (2023-10-27T09:16:58Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - A Qualitative Study of the Dynamic Behavior for Adaptive Gradient
Algorithms [12.865834066050427]
RMSpropとAdamのアルゴリズムは、注意深い数値実験と理論的説明を組み合わせることで研究されている。
トレーニング損失曲線では, 早期収束, 発振, 大スパイクの3種類の定性的特徴が観察された。
論文 参考訳(メタデータ) (2020-09-14T00:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。