論文の概要: Adam Can Converge Without Any Modification on Update Rules
- arxiv url: http://arxiv.org/abs/2208.09632v1
- Date: Sat, 20 Aug 2022 08:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:22:05.252210
- Title: Adam Can Converge Without Any Modification on Update Rules
- Title(参考訳): アップデートルールの変更なしにAdamが収束できる
- Authors: Yushun Zhang, Congliang Chen, Naichen Shi, Ruoyu Sun, Zhi-Quan Luo
- Abstract要約: バニラ・アダムは依然として非常に人気があり、実際はうまく機能している。
我々は、Adamが更新ルールを変更することなく、幅広いハイパーパラメータで収束できることを示します。
我々の発散結果は収束結果と同一の設定を考慮し、$beta$を増大させるときに発散から収束への相転移を示す。
- 参考スコア(独自算出の注目度): 24.575453562687095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ever since Reddi et al. 2018 pointed out the divergence issue of Adam, many
new variants have been designed to obtain convergence. However, vanilla Adam
remains exceptionally popular and it works well in practice. Why is there a gap
between theory and practice? We point out there is a mismatch between the
settings of theory and practice: Reddi et al. 2018 pick the problem after
picking the hyperparameters of Adam, i.e., $(\beta_1, \beta_2)$; while
practical applications often fix the problem first and then tune $(\beta_1,
\beta_2)$. Due to this observation, we conjecture that the empirical
convergence can be theoretically justified, only if we change the order of
picking the problem and hyperparameter. In this work, we confirm this
conjecture. We prove that, when $\beta_2$ is large and $\beta_1 <
\sqrt{\beta_2}<1$, Adam converges to the neighborhood of critical points. The
size of the neighborhood is propositional to the variance of stochastic
gradients. Under an extra condition (strong growth condition), Adam converges
to critical points. As $\beta_2$ increases, our convergence result can cover
any $\beta_1 \in [0,1)$ including $\beta_1=0.9$, which is the default setting
in deep learning libraries. Our result shows that Adam can converge under a
wide range of hyperparameters without any modification on its update rules. To
our knowledge, we are the first to prove this result without strong assumptions
such as bounded gradients. When $\beta_2$ is small, we further point out a
large region of $(\beta_1,\beta_2)$ where Adam can diverge to infinity. Our
divergence result considers the same setting as our convergence result,
indicating a phase transition from divergence to convergence when increasing
$\beta_2$. These positive and negative results can provide suggestions on how
to tune Adam hyperparameters.
- Abstract(参考訳): ReddiらがAdamの分岐問題を指摘して以来、多くの新しい変種が収束を得るために設計されている。
しかし、バニラ・アダムは依然として非常に人気があり、実際はうまく機能している。
なぜ理論と実践の間にギャップがあるのか?
Reddi et al. 2018 では、Adam のハイパーパラメータ、すなわち $(\beta_1, \beta_2)$ を選択した後に問題を選択するが、実際的なアプリケーションは、まず問題を修正し、次に $(\beta_1, \beta_2)$ をチューニングする。
この観察により、経験的収束は、問題の選択順序とハイパーパラメータを変更する場合に限り、理論的に正当化できると推測する。
この研究で、我々はこの予想を裏付ける。
我々は、$\beta_2$ が大きいとき、$\beta_1 < \sqrt{\beta_2}<1$ が臨界点の近傍に収束することを証明している。
近傍の大きさは、確率勾配の分散に対して命題的である。
余分な条件(強い成長条件)の下で、アダムは臨界点に収束する。
これはディープラーニングライブラリのデフォルト設定である$\beta_1=0.9$を含む任意の$\beta_1 \in [0,1)$をカバーします。
この結果から,Adamは更新ルールを変更することなく,広い範囲のハイパーパラメータに収束できることがわかった。
我々の知る限り、我々は有界勾配のような強い仮定なしでこの結果を初めて証明した。
$\beta_2$ が小さければ、Adam が無限大に発散できる $(\beta_1,\beta_2)$ の大きな領域も指摘する。
我々の発散結果は収束結果と同じ設定を考慮し、$\beta_2$ のときに発散から収束への相転移を示す。
これらの正と負の結果は、adamハイパーパラメータのチューニング方法を提案できる。
関連論文リスト
- ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate [21.378608502899077]
本稿では,ADOPTという新しい適応勾配法を提案する。これは,有界雑音の仮定に依存することなく,$mathcalOの最適収束率を実現する。
ADOPTは、画像分類、生成モデル、自然言語処理、深層強化学習など、幅広いタスクにおいて、Adamとその変種と比較して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-11-05T06:57:47Z) - Convergence Guarantees for RMSProp and Adam in Generalized-smooth Non-convex Optimization with Affine Noise Variance [23.112775335244258]
我々はまず,適応学習率を持つAdamの特殊なケースであるRMSPropを分析する。
我々は、勾配ノルムの関数でもある降下補題において、新しい上界一階項を開発する。
RMSPropとAdamの両者の結果は、citearvani2023lowerで確立された複雑さと一致した。
論文 参考訳(メタデータ) (2024-04-01T19:17:45Z) - Closing the Gap Between the Upper Bound and the Lower Bound of Adam's
Iteration Complexity [51.96093077151991]
我々はAdamの新しい収束保証を導出し、$L$-smooth条件と有界雑音分散仮定のみを導出する。
本証明は,運動量と適応学習率の絡み合いを扱うために,新しい手法を利用する。
論文 参考訳(メタデータ) (2023-10-27T09:16:58Z) - The Sample Complexity of Online Contract Design [120.9833763323407]
オンライン環境での隠れアクションの主エージェント問題について検討する。
各ラウンドにおいて、主席は、各結果に基づいてエージェントへの支払いを指定する契約を投稿する。
エージェントは、自身のユーティリティを最大化する戦略的な行動選択を行うが、プリンシパルによって直接観察できない。
論文 参考訳(メタデータ) (2022-11-10T17:59:42Z) - Fast Rates for the Regret of Offline Reinforcement Learning [69.23654172273085]
無限水平割引決定プロセス(MDP)における固定行動ポリシーによって生成されたオフラインデータからの強化学習の後悔について検討する。
最適品質関数 $Q*$ に対する任意の推定が与えられたとき、定義するポリシーの後悔は、$Q*$-estimate の点収束率の指数によって与えられる速度で収束することを示す。
論文 参考訳(メタデータ) (2021-01-31T16:17:56Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - A new regret analysis for Adam-type algorithms [78.825194932103]
理論的には、オンライン凸最適化に対する後悔の保証は、急速に崩壊する$beta_1to0$スケジュールを必要とする。
最適なデータ依存リセット境界を一定の$beta_1$で導出できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-21T19:19:51Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。