論文の概要: Convergence of ADAM with Constant Step Size in Non-Convex Settings: A
Simple Proof
- arxiv url: http://arxiv.org/abs/2309.08339v2
- Date: Sun, 24 Sep 2023 13:31:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 00:27:12.221151
- Title: Convergence of ADAM with Constant Step Size in Non-Convex Settings: A
Simple Proof
- Title(参考訳): 非凸設定におけるadamの定数ステップサイズ収束:簡単な証明
- Authors: Alokendu Mazumder, Bhartendu Kumar, Manan Tayal, Punit Rathore
- Abstract要約: ニューラルネットワークトレーニングにおいて、RMSPropとADAMは依然として広く好まれる最適化アルゴリズムである。
パフォーマンスの鍵は、正しいステップサイズが、その効果に大きく影響する可能性があることです。
- 参考スコア(独自算出の注目度): 1.460678420166056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In neural network training, RMSProp and ADAM remain widely favoured
optimization algorithms. One of the keys to their performance lies in selecting
the correct step size, which can significantly influence their effectiveness.
It is worth noting that these algorithms performance can vary considerably,
depending on the chosen step sizes. Additionally, questions about their
theoretical convergence properties continue to be a subject of interest. In
this paper, we theoretically analyze a constant stepsize version of ADAM in the
non-convex setting. We show sufficient conditions for the stepsize to achieve
almost sure asymptotic convergence of the gradients to zero with minimal
assumptions. We also provide runtime bounds for deterministic ADAM to reach
approximate criticality when working with smooth, non-convex functions.
- Abstract(参考訳): ニューラルネットワークトレーニングにおいて、RMSPropとADAMは依然として広く好まれる最適化アルゴリズムである。
彼らのパフォーマンスの鍵の1つは、正しいステップサイズを選択することである。
これらのアルゴリズムのパフォーマンスは、選択したステップサイズによって大きく異なる可能性があることに注意が必要だ。
さらに、それらの理論収束性に関する疑問は、引き続き関心の対象である。
本稿では,非凸状態におけるADAMの定常段差バージョンを理論的に解析する。
最小の仮定で、勾配の漸近収束を 0 にほぼ確実に達成するための段階的条件を示す。
また、スムーズな非凸関数を扱う場合、決定論的ADAMがほぼ臨界に達するための実行時境界も提供する。
関連論文リスト
- Moreau Envelope ADMM for Decentralized Weakly Convex Optimization [55.2289666758254]
本稿では,分散最適化のための乗算器の交互方向法(ADMM)の近位変種を提案する。
数値実験の結果,本手法は広く用いられている手法よりも高速かつ堅牢であることが示された。
論文 参考訳(メタデータ) (2023-08-31T14:16:30Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Divergence Results and Convergence of a Variance Reduced Version of ADAM [30.10316505009956]
我々はADAM型アルゴリズムが収束していることを示し、これは元々のADAMのばらつきを引き起こす勾配のばらつきを意味する。
数値実験により,提案アルゴリズムはADAMと同等の性能を示した。
論文 参考訳(メタデータ) (2022-10-11T16:54:56Z) - Formal guarantees for heuristic optimization algorithms used in machine
learning [6.978625807687497]
グラディエント・Descent(SGD)とその変種は、大規模最適化機械学習(ML)問題において支配的な手法となっている。
本稿では,いくつかの凸最適化手法の形式的保証と改良アルゴリズムの提案を行う。
論文 参考訳(メタデータ) (2022-07-31T19:41:22Z) - Local Convergence of Adaptive Gradient Descent Optimizers [0.0]
適応モーメント推定 (adaptive moment estimation, adam) は深層ニューラルネットワークのための非常に一般的なアルゴリズムであり、適応勾配降下の族に属する。
ADAMの完全な分析は存在しない。
本論文はバッチモードにおける決定論的収束解析の一手法である。
論文 参考訳(メタデータ) (2021-02-19T08:36:13Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Convergence of Meta-Learning with Task-Specific Adaptation over Partial
Parameters [152.03852111442114]
モデルに依存しないメタラーニング(MAML)は非常に成功したアルゴリズムメタラーニングの実践であるが、高い計算複雑性を持つ。
本稿では,その複雑さがANILの全体的な収束性能に大きく影響することを示す。
論文 参考訳(メタデータ) (2020-06-16T19:57:48Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - A Second look at Exponential and Cosine Step Sizes: Simplicity,
Adaptivity, and Performance [23.89815527019194]
Gradient Descent(SGD)は、大規模な機械学習モデルで人気のあるツールである。
ステップサイズの選択にもよるが、非常に可変である。
ステップサイズを調整するための様々な戦略が提案されている。
論文 参考訳(メタデータ) (2020-02-12T23:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。