論文の概要: ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate
- arxiv url: http://arxiv.org/abs/2411.02853v1
- Date: Tue, 05 Nov 2024 06:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:01:24.801666
- Title: ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate
- Title(参考訳): ADOPT: 修正されたAdamは任意の$β_2$と最適なレートで収束できる
- Authors: Shohei Taniguchi, Keno Harada, Gouki Minegishi, Yuta Oshima, Seong Cheol Jeong, Go Nagahara, Tomoshi Iiyama, Masahiro Suzuki, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: 本稿では,ADOPTという新しい適応勾配法を提案する。これは,有界雑音の仮定に依存することなく,$mathcalOの最適収束率を実現する。
ADOPTは、画像分類、生成モデル、自然言語処理、深層強化学習など、幅広いタスクにおいて、Adamとその変種と比較して優れた結果が得られる。
- 参考スコア(独自算出の注目度): 21.378608502899077
- License:
- Abstract: Adam is one of the most popular optimization algorithms in deep learning. However, it is known that Adam does not converge in theory unless choosing a hyperparameter, i.e., $\beta_2$, in a problem-dependent manner. There have been many attempts to fix the non-convergence (e.g., AMSGrad), but they require an impractical assumption that the gradient noise is uniformly bounded. In this paper, we propose a new adaptive gradient method named ADOPT, which achieves the optimal convergence rate of $\mathcal{O} ( 1 / \sqrt{T} )$ with any choice of $\beta_2$ without depending on the bounded noise assumption. ADOPT addresses the non-convergence issue of Adam by removing the current gradient from the second moment estimate and changing the order of the momentum update and the normalization by the second moment estimate. We also conduct intensive numerical experiments, and verify that our ADOPT achieves superior results compared to Adam and its variants across a wide range of tasks, including image classification, generative modeling, natural language processing, and deep reinforcement learning. The implementation is available at https://github.com/iShohei220/adopt.
- Abstract(参考訳): Adam氏はディープラーニングにおける最も人気のある最適化アルゴリズムの1つである。
しかし、アダムは超パラメータ、すなわち$\beta_2$を問題依存的に選ばない限り理論に収束しないことが知られている。
非収束性(例えば AMSGrad)を修正する試みは数多くあるが、勾配ノイズが一様有界であるという非現実的な仮定を必要とする。
本稿では,ADOPTという新しい適応勾配法を提案する。これは,有界雑音の仮定によらずに,$\mathcal{O} ( 1 / \sqrt{T} )$の最適収束率を$\beta_2$の任意の選択で達成する。
ADOPTは、第2モーメント推定から電流勾配を除去し、モーメント更新の順序と第2モーメント推定による正規化を変更することにより、アダムの非収束問題に対処する。
また, 画像分類, 生成モデル, 自然言語処理, 深層強化学習など, 幅広いタスクにおいて, ADOPTがAdamとその変種と比較して優れた結果を得られることを検証した。
実装はhttps://github.com/iShohei220/adopt.comで公開されている。
関連論文リスト
- On Convergence of Adam for Stochastic Optimization under Relaxed
Assumptions [4.9495085874952895]
Adaptive Momentum Estimation (Adam)アルゴリズムは、様々なディープラーニングタスクにおいて非常に効果的である。
この一般的な雑音モデルの下で,Adamは高い反復率で定常点のばらつきを見いだせることを示す。
論文 参考訳(メタデータ) (2024-02-06T13:19:26Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Adam Can Converge Without Any Modification on Update Rules [24.575453562687095]
バニラ・アダムは依然として非常に人気があり、実際はうまく機能している。
我々は、$beta$が大きければ、Adamは臨界点の近傍に収束することを示す。
我々の発散結果は収束結果と同一の設定を考慮し、$beta$を増大させるときに発散から収束への相転移を示す。
論文 参考訳(メタデータ) (2022-08-20T08:12:37Z) - Investigating Alternatives to the Root Mean Square for Adaptive Gradient
Methods [20.531576904743282]
Adamは適応勾配法であり、高速で信頼性の高いトレーニング性能のために広く採用されている。
最近のアプローチでは、Adamよりも大幅に改善されていないが、多くの場合、その中核的な特徴の1つ、すなわち最近の勾配のルート平均平方(RMS)による正規化を革新しないためである。
適応勾配法に対する異なる$Lp$ノルムの影響を理論的かつ実証的に初めて特徴づける。
論文 参考訳(メタデータ) (2021-06-10T01:38:37Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - A new regret analysis for Adam-type algorithms [78.825194932103]
理論的には、オンライン凸最適化に対する後悔の保証は、急速に崩壊する$beta_1to0$スケジュールを必要とする。
最適なデータ依存リセット境界を一定の$beta_1$で導出できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-21T19:19:51Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。