論文の概要: Adam Converges Without Any Modification On Update Rules
- arxiv url: http://arxiv.org/abs/2603.02092v1
- Date: Mon, 02 Mar 2026 17:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.99953
- Title: Adam Converges Without Any Modification On Update Rules
- Title(参考訳): アップデートルールの変更なしにAdamが収束
- Authors: Yushun Zhang, Bingran Li, Congliang Chen, Zhi-Quan Luo, Ruoyu Sun,
- Abstract要約: Adam氏は、大規模言語モデル(LLM)を含むニューラルネットワークをトレーニングするためのデフォルトのアルゴリズムである。
citetreddi 2019コンバージェンスは、Adam氏が多様化し、AIモデルトレーニングへの展開に対する懸念を提起した例である。
- 参考スコア(独自算出の注目度): 24.855239154362895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adam is the default algorithm for training neural networks, including large language models (LLMs). However, \citet{reddi2019convergence} provided an example that Adam diverges, raising concerns for its deployment in AI model training. We identify a key mismatch between the divergence example and practice: \citet{reddi2019convergence} pick the problem after picking the hyperparameters of Adam, i.e., $(β_1,β_2)$; while practical applications often fix the problem first and then tune $(β_1,β_2)$. In this work, we prove that Adam converges with proper problem-dependent hyperparameters. First, we prove that Adam converges when $β_2$ is large and $β_1 < \sqrt{β_2}$. Second, when $β_2$ is small, we point out a region of $(β_1,β_2)$ combinations where Adam can diverge to infinity. Our results indicate a phase transition for Adam from divergence to convergence when changing the $(β_1, β_2)$ combination. To our knowledge, this is the first phase transition in $(β_1,β_2)$ 2D-plane reported in the literature, providing rigorous theoretical guarantees for Adam optimizer. We further point out that the critical boundary $(β_1^*, β_2^*)$ is problem-dependent, and particularly, dependent on batch size. This provides suggestions on how to tune $β_1$ and $β_2$: when Adam does not work well, we suggest tuning up $β_2$ inversely with batch size to surpass the threshold $β_2^*$, and then trying $β_1< \sqrt{β_2}$. Our suggestions are supported by reports from several empirical studies, which observe improved LLM training performance when applying them.
- Abstract(参考訳): Adam氏は、大規模言語モデル(LLM)を含むニューラルネットワークをトレーニングするためのデフォルトのアルゴリズムである。
しかし、‘citet{reddi2019convergence} は、Adam氏がAIモデルのトレーニングに展開する際の懸念を提起する例を提供した。
発散例と実践のキーミスマッチを識別する: \citet{reddi2019convergence} は、Adamのハイパーパラメータ、すなわち$(β_1,β_2)$を選択した後に問題を選択する。
本研究では、Adamが適切な問題依存型ハイパーパラメータと収束することを証明する。
まず、$β_2$ と $β_1 < \sqrt{β_2}$ が大きければ、アダムが収束することが証明される。
第二に、$β_2$ が小さいとき、Adam が無限大に分岐できる$(β_1,β_2)$ の組み合わせの領域を指摘した。
以上の結果から,Adamは$(β_1, β_2)$の組合せを変更する際に,分散から収束への相転移を示す。
我々の知る限り、これは文献で報告された$(β_1,β_2)$ 2D平面における最初の相転移であり、アダム・オプティマイザの厳密な理論的保証を提供する。
さらに、臨界境界$(β_1^*, β_2^*)$は問題依存であり、特にバッチサイズに依存することを指摘した。
これは、$β_1$と$β_2$をチューニングする方法に関する提案である: Adamがうまく機能しない場合、我々は、しきい値である$β_2^*$を越え、次に$β_1< \sqrt{β_2}$を試すために、バッチサイズで逆向きに$β_2$をチューニングすることを提案します。
提案手法は,LLMのトレーニング性能の向上を実証する実験研究の報告によって裏付けられている。
関連論文リスト
- Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime [26.492222550365735]
アダムは深層学習の事実上のデファクトであるが、理論的な理解は限られている。
線形分離可能なデータに対するロジスティック回帰のために, インクリメンタルAdamの暗黙バイアス(ステップ毎に1つのサンプルを用いて)について検討した。
我々は、Adam が $ell_infty$-max-margin に確実に収束する構造化データセットのクラスを構築する。
論文 参考訳(メタデータ) (2025-10-30T09:41:33Z) - Simple Convergence Proof of Adam From a Sign-like Descent Perspective [58.89890024903816]
我々は、Adamが以前の$cal O(fracln TTs14)$よりも$cal O(frac1Ts14)$の最適なレートを達成することを示す。
我々の理論分析は、収束を保証する重要な要因として運動量の役割に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-08T13:19:26Z) - On the $O(\rac{\sqrt{d}}{K^{1/4}})$ Convergence Rate of AdamW Measured by $\ell_1$ Norm [52.95596504632859]
本稿では、$ell_1$ノルムで測定されたAdamWに対して、収束速度 $frac1Ksum_k=1KEleft[||nabla f(xk)||_1right]leq O(fracsqrtdCK1/4)$を確立する。
結果は、二重モーメント機構を用いたAdamW変種であるNAdamWに拡張し、同じ収束率を維持していることを示す。
論文 参考訳(メタデータ) (2025-05-17T05:02:52Z) - Beyond likelihood ratio bias: Nested multi-time-scale stochastic approximation for likelihood-free parameter estimation [49.78792404811239]
確率分析形式が不明なシミュレーションベースモデルにおける推論について検討する。
我々は、スコアを同時に追跡し、パラメータ更新を駆動する比率のないネスト型マルチタイムスケール近似(SA)手法を用いる。
我々のアルゴリズムは、オリジナルのバイアス$Obig(sqrtfrac1Nbig)$を排除し、収束率を$Obig(beta_k+sqrtfracalpha_kNbig)$から加速できることを示す。
論文 参考訳(メタデータ) (2024-11-20T02:46:15Z) - ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate [21.378608502899077]
本稿では,ADOPTという新しい適応勾配法を提案する。これは,有界雑音の仮定に依存することなく,$mathcalOの最適収束率を実現する。
ADOPTは、画像分類、生成モデル、自然言語処理、深層強化学習など、幅広いタスクにおいて、Adamとその変種と比較して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-11-05T06:57:47Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Adam Can Converge Without Any Modification on Update Rules [24.575453562687095]
バニラ・アダムは依然として非常に人気があり、実際はうまく機能している。
我々は、$beta$が大きければ、Adamは臨界点の近傍に収束することを示す。
我々の発散結果は収束結果と同一の設定を考慮し、$beta$を増大させるときに発散から収束への相転移を示す。
論文 参考訳(メタデータ) (2022-08-20T08:12:37Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - A new regret analysis for Adam-type algorithms [78.825194932103]
理論的には、オンライン凸最適化に対する後悔の保証は、急速に崩壊する$beta_1to0$スケジュールを必要とする。
最適なデータ依存リセット境界を一定の$beta_1$で導出できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-21T19:19:51Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。