論文の概要: Provable Adaptivity in Adam
- arxiv url: http://arxiv.org/abs/2208.09900v1
- Date: Sun, 21 Aug 2022 14:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:35:15.831297
- Title: Provable Adaptivity in Adam
- Title(参考訳): アダムの確率適応性
- Authors: Bohan Wang, Yushun Zhang, Huishuai Zhang, Qi Meng, Zhi-Ming Ma,
Tie-Yan Liu, Wei Chen
- Abstract要約: 我々はアダムが局所的な滑らかさ条件に適応し、アダムの強調適応性を正当化できると主張している。
我々の結果は、適応的でないものよりも適応的勾配法の利点に光を当てるかもしれない。
- 参考スコア(独自算出の注目度): 87.29083241928804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive Moment Estimation (Adam) optimizer is widely used in deep learning
tasks because of its fast convergence properties. However, the convergence of
Adam is still not well understood. In particular, the existing analysis of Adam
cannot clearly demonstrate the advantage of Adam over SGD. We attribute this
theoretical embarrassment to $L$-smooth condition (i.e., assuming the gradient
is globally Lipschitz continuous with constant $L$) adopted by literature,
which has been pointed out to often fail in practical neural networks. To
tackle this embarrassment, we analyze the convergence of Adam under a relaxed
condition called $(L_0,L_1)$ smoothness condition, which allows the gradient
Lipschitz constant to change with the local gradient norm. $(L_0,L_1)$ is
strictly weaker than $L$-smooth condition and it has been empirically verified
to hold for practical deep neural networks. Under the $(L_0,L_1)$ smoothness
condition, we establish the convergence for Adam with practical
hyperparameters. Specifically, we argue that Adam can adapt to the local
smoothness condition, justifying the \emph{adaptivity} of Adam. In contrast,
SGD can be arbitrarily slow under this condition. Our result might shed light
on the benefit of adaptive gradient methods over non-adaptive ones.
- Abstract(参考訳): アダプティブモーメント推定(Adam)最適化器は、その高速収束特性のためにディープラーニングタスクで広く利用されている。
しかし、アダムの収束はまだよく理解されていない。
特に、Adamの既存の分析は、SGDよりもAdamの利点を明確に示すことはできない。
この理論上の困惑は、l$-smooth条件(つまり、勾配が常にl$でグローバルにリプシッツ連続であると仮定する)になぞらえており、実際のニューラルネットワークではよく失敗することが指摘されている。
この困惑に対処するために,$(l_0,l_1)$平滑性条件と呼ばれる緩和条件下でのadamの収束を解析し,局所勾配ノルムで勾配リプシッツ定数が変化することを可能にする。
l_0,l_1)$は、l$-smooth条件よりも厳密に弱く、実用的なディープニューラルネットワークを保持することが実証的に証明されている。
L_0,L_1)$の滑らかさ条件の下では、実用的なハイパーパラメータを持つAdamの収束を確立する。
具体的には、アダムは局所的な滑らかさ条件に適応し、アダムの「emph{adaptivity}」を正当化することができると論じる。
対照的に、SGDはこの条件下で任意に遅くすることができる。
我々の結果は、適応的でないものよりも適応的勾配法の利点に光を当てるかもしれない。
関連論文リスト
- On Convergence of Adam for Stochastic Optimization under Relaxed
Assumptions [4.9495085874952895]
Adaptive Momentum Estimation (Adam)アルゴリズムは、様々なディープラーニングタスクにおいて非常に効果的である。
この一般的な雑音モデルの下で,Adamは高い反復率で定常点のばらつきを見いだせることを示す。
論文 参考訳(メタデータ) (2024-02-06T13:19:26Z) - High Probability Convergence of Adam Under Unbounded Gradients and
Affine Variance Noise [4.9495085874952895]
我々はAdamが高い確率で定常点に収束できることを示し、$mathcalOleft(rm poly(log T)/sqrtTright)$を座標ワイドな「アフィン」ノイズ分散の下で表す。
また、Adamの閉包は$mathcalOleft(rm poly(left T)right)$の順序でノイズレベルに適応していることも明らかにされている。
論文 参考訳(メタデータ) (2023-11-03T15:55:53Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Theoretical analysis of Adam using hyperparameters close to one without
Lipschitz smoothness [0.0]
適応モーメント推定(Adam)は,大きなサイズで良好に動作することを示す。
また、Adamは学習率の低下やハイパーパラメータが1に近い場合にもうまく機能することを示す。
論文 参考訳(メタデータ) (2022-06-27T13:32:51Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。