論文の概要: A Novel Convergence Analysis for Algorithms of the Adam Family
- arxiv url: http://arxiv.org/abs/2112.03459v1
- Date: Tue, 7 Dec 2021 02:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 02:39:55.296496
- Title: A Novel Convergence Analysis for Algorithms of the Adam Family
- Title(参考訳): アダム家アルゴリズムの新しい収束解析
- Authors: Zhishuai Guo, Yi Xu, Wotao Yin, Rong Jin, Tianbao Yang
- Abstract要約: 本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
- 参考スコア(独自算出の注目度): 105.22760323075008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since its invention in 2014, the Adam optimizer has received tremendous
attention. On one hand, it has been widely used in deep learning and many
variants have been proposed, while on the other hand their theoretical
convergence property remains to be a mystery. It is far from satisfactory in
the sense that some studies require strong assumptions about the updates, which
are not necessarily applicable in practice, while other studies still follow
the original problematic convergence analysis of Adam, which was shown to be
not sufficient to ensure convergence. Although rigorous convergence analysis
exists for Adam, they impose specific requirements on the update of the
adaptive step size, which are not generic enough to cover many other variants
of Adam. To address theses issues, in this extended abstract, we present a
simple and generic proof of convergence for a family of Adam-style methods
(including Adam, AMSGrad, Adabound, etc.). Our analysis only requires an
increasing or large "momentum" parameter for the first-order moment, which is
indeed the case used in practice, and a boundness condition on the adaptive
factor of the step size, which applies to all variants of Adam under mild
conditions of stochastic gradients. We also establish a variance diminishing
result for the used stochastic gradient estimators. Indeed, our analysis of
Adam is so simple and generic that it can be leveraged to establish the
convergence for solving a broader family of non-convex optimization problems,
including min-max, compositional, and bilevel optimization problems. For the
full (earlier) version of this extended abstract, please refer to
arXiv:2104.14840.
- Abstract(参考訳): 2014年の発明以来、アダム・オプティマイザは大きな注目を集めてきた。
一方、深層学習において広く用いられ、多くの変種が提案されている一方、理論収束性は謎のままである。
実際には必ずしも適用できない更新について強い仮定を必要とする研究もあるが、アダムのオリジナルの問題収束解析に従う研究もあるが、収束を保証するには十分ではないことが示されている。
アダムの厳密な収束解析は存在するが、アダムの他の多くの変種をカバーできるほど一般的ではない適応的なステップサイズの更新に特定の要求を課している。
これらの問題に対処するために、この拡張抽象論において、Adam型メソッド(Adam, AMSGrad, Adaboundなど)の族に対する単純で一般的な収束の証明を示す。
本分析では, 1次モーメントの「モーメント」パラメータの増大と, 実際に用いられる場合, ステップサイズの適応係数の有界条件のみを要し, 確率勾配の緩やかな条件下でのAdamのすべての変種に適用する。
また, 使用済み確率勾配推定器の分散低減効果も確立した。
実際、adamの分析は非常に単純で汎用的なので、min-max、 compositional、bilevel optimization問題を含む、より広範な非凸最適化問題群を解決するための収束を確立するために活用できます。
この拡張抽象の完全な(早期)バージョンについては、arXiv:2104.14840を参照してください。
関連論文リスト
- A Comprehensive Framework for Analyzing the Convergence of Adam: Bridging the Gap with SGD [28.905886549938305]
本稿では,Adamの収束特性を解析するための,新しい包括的枠組みを提案する。
我々は、アダムが漸近的でない複雑性サンプルを勾配降下の値と類似して得ることを示す。
論文 参考訳(メタデータ) (2024-10-06T12:15:00Z) - High Probability Convergence of Adam Under Unbounded Gradients and
Affine Variance Noise [4.9495085874952895]
我々はAdamが高い確率で定常点に収束できることを示し、$mathcalOleft(rm poly(log T)/sqrtTright)$を座標ワイドな「アフィン」ノイズ分散の下で表す。
また、Adamの閉包は$mathcalOleft(rm poly(left T)right)$の順序でノイズレベルに適応していることも明らかにされている。
論文 参考訳(メタデータ) (2023-11-03T15:55:53Z) - Closing the Gap Between the Upper Bound and the Lower Bound of Adam's
Iteration Complexity [51.96093077151991]
我々はAdamの新しい収束保証を導出し、$L$-smooth条件と有界雑音分散仮定のみを導出する。
本証明は,運動量と適応学習率の絡み合いを扱うために,新しい手法を利用する。
論文 参考訳(メタデータ) (2023-10-27T09:16:58Z) - UAdam: Unified Adam-Type Algorithmic Framework for Non-Convex Stochastic
Optimization [20.399244578926474]
我々は,Adam型アルゴリズム(UAdam)の統一フレームワークを導入する。
これは、NAdamBound、AdaFom、Adanといった2階のモーメントの一般的な形式を備えている。
UAdam が定常点の近傍に収束して $mathcalO (1/T)$ となることを示す。
論文 参考訳(メタデータ) (2023-05-09T13:07:03Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。