論文の概要: A Theoretical and Empirical Study on the Convergence of Adam with an "Exact" Constant Step Size in Non-Convex Settings
- arxiv url: http://arxiv.org/abs/2309.08339v3
- Date: Wed, 3 Apr 2024 13:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 20:22:43.439028
- Title: A Theoretical and Empirical Study on the Convergence of Adam with an "Exact" Constant Step Size in Non-Convex Settings
- Title(参考訳): 非凸配置における「具体的な」一定のステップサイズを有するアダムの収束に関する理論的および実証的研究
- Authors: Alokendu Mazumder, Rishabh Sabharwal, Manan Tayal, Bhartendu Kumar, Punit Rathore,
- Abstract要約: ニューラルネットワークトレーニングでは、RMSとAdamは依然として広く好まれているアルゴリズムである。
理論的には、アダムのステップサイズに対する定数収束を解析する。
いくつかの過去の蓄積にもかかわらず、Adamにおける収束の鍵となる要因は、非ステップのサイズであることを示す。
- 参考スコア(独自算出の注目度): 1.246305060872372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In neural network training, RMSProp and Adam remain widely favoured optimisation algorithms. One of the keys to their performance lies in selecting the correct step size, which can significantly influence their effectiveness. Additionally, questions about their theoretical convergence properties continue to be a subject of interest. In this paper, we theoretically analyse a constant step size version of Adam in the non-convex setting and discuss why it is important for the convergence of Adam to use a fixed step size. This work demonstrates the derivation and effective implementation of a constant step size for Adam, offering insights into its performance and efficiency in non convex optimisation scenarios. (i) First, we provide proof that these adaptive gradient algorithms are guaranteed to reach criticality for smooth non-convex objectives with constant step size, and we give bounds on the running time. Both deterministic and stochastic versions of Adam are analysed in this paper. We show sufficient conditions for the derived constant step size to achieve asymptotic convergence of the gradients to zero with minimal assumptions. Next, (ii) we design experiments to empirically study Adam's convergence with our proposed constant step size against stateof the art step size schedulers on classification tasks. Lastly, (iii) we also demonstrate that our derived constant step size has better abilities in reducing the gradient norms, and empirically, we show that despite the accumulation of a few past gradients, the key driver for convergence in Adam is the non-increasing step sizes.
- Abstract(参考訳): ニューラルネットワークトレーニングでは、RMSPropとAdamは最適化アルゴリズムを広く好んでいる。
パフォーマンスの鍵の1つは、正しいステップサイズを選択することである。
さらに、それらの理論収束性に関する疑問は、引き続き関心の対象である。
本稿では,非凸設定におけるAdamの定数ステップサイズバージョンを理論的に解析し,Adamの収束が固定ステップサイズを使用する上で重要である理由について議論する。
この研究は、Adam氏にとって一定のステップサイズの導出と効果的な実装を示し、非凸最適化シナリオのパフォーマンスと効率に関する洞察を提供する。
第一に、これらの適応勾配アルゴリズムは、定常的なステップサイズで滑らかな非凸目的に対して臨界点に達することが保証されていることを示し、ランニング時間に限界を与える。
本論文では,Adamの定式化版と確率型化版の両方について分析する。
我々は、最小の仮定で勾配をゼロに漸近収束させるのに、導出定数のステップサイズについて十分な条件を示す。
次に
(II) 分類タスクにおけるアートステップサイズスケジューラの状態に対して, 提案した一定ステップサイズとアダムの収束を実証的に検討する実験を設計する。
最後に。
実験により, 過去の勾配の蓄積にもかかわらず, アダムにおける収束の鍵となる要因は非増加段階の大きさであることがわかった。
関連論文リスト
- A Comprehensive Framework for Analyzing the Convergence of Adam: Bridging the Gap with SGD [28.905886549938305]
本稿では,Adamの収束特性を解析するための,新しい包括的枠組みを提案する。
我々は、アダムが漸近的でない複雑性サンプルを勾配降下の値と類似して得ることを示す。
論文 参考訳(メタデータ) (2024-10-06T12:15:00Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Formal guarantees for heuristic optimization algorithms used in machine
learning [6.978625807687497]
グラディエント・Descent(SGD)とその変種は、大規模最適化機械学習(ML)問題において支配的な手法となっている。
本稿では,いくつかの凸最適化手法の形式的保証と改良アルゴリズムの提案を行う。
論文 参考訳(メタデータ) (2022-07-31T19:41:22Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。