論文の概要: A Novel Convergence Analysis for Algorithms of the Adam Family
- arxiv url: http://arxiv.org/abs/2112.03459v1
- Date: Tue, 7 Dec 2021 02:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-09 02:39:55.296496
- Title: A Novel Convergence Analysis for Algorithms of the Adam Family
- Title(参考訳): アダム家アルゴリズムの新しい収束解析
- Authors: Zhishuai Guo, Yi Xu, Wotao Yin, Rong Jin, Tianbao Yang
- Abstract要約: 本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
- 参考スコア(独自算出の注目度): 105.22760323075008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since its invention in 2014, the Adam optimizer has received tremendous
attention. On one hand, it has been widely used in deep learning and many
variants have been proposed, while on the other hand their theoretical
convergence property remains to be a mystery. It is far from satisfactory in
the sense that some studies require strong assumptions about the updates, which
are not necessarily applicable in practice, while other studies still follow
the original problematic convergence analysis of Adam, which was shown to be
not sufficient to ensure convergence. Although rigorous convergence analysis
exists for Adam, they impose specific requirements on the update of the
adaptive step size, which are not generic enough to cover many other variants
of Adam. To address theses issues, in this extended abstract, we present a
simple and generic proof of convergence for a family of Adam-style methods
(including Adam, AMSGrad, Adabound, etc.). Our analysis only requires an
increasing or large "momentum" parameter for the first-order moment, which is
indeed the case used in practice, and a boundness condition on the adaptive
factor of the step size, which applies to all variants of Adam under mild
conditions of stochastic gradients. We also establish a variance diminishing
result for the used stochastic gradient estimators. Indeed, our analysis of
Adam is so simple and generic that it can be leveraged to establish the
convergence for solving a broader family of non-convex optimization problems,
including min-max, compositional, and bilevel optimization problems. For the
full (earlier) version of this extended abstract, please refer to
arXiv:2104.14840.
- Abstract(参考訳): 2014年の発明以来、アダム・オプティマイザは大きな注目を集めてきた。
一方、深層学習において広く用いられ、多くの変種が提案されている一方、理論収束性は謎のままである。
実際には必ずしも適用できない更新について強い仮定を必要とする研究もあるが、アダムのオリジナルの問題収束解析に従う研究もあるが、収束を保証するには十分ではないことが示されている。
アダムの厳密な収束解析は存在するが、アダムの他の多くの変種をカバーできるほど一般的ではない適応的なステップサイズの更新に特定の要求を課している。
これらの問題に対処するために、この拡張抽象論において、Adam型メソッド(Adam, AMSGrad, Adaboundなど)の族に対する単純で一般的な収束の証明を示す。
本分析では, 1次モーメントの「モーメント」パラメータの増大と, 実際に用いられる場合, ステップサイズの適応係数の有界条件のみを要し, 確率勾配の緩やかな条件下でのAdamのすべての変種に適用する。
また, 使用済み確率勾配推定器の分散低減効果も確立した。
実際、adamの分析は非常に単純で汎用的なので、min-max、 compositional、bilevel optimization問題を含む、より広範な非凸最適化問題群を解決するための収束を確立するために活用できます。
この拡張抽象の完全な(早期)バージョンについては、arXiv:2104.14840を参照してください。
関連論文リスト
- High Probability Convergence of Adam Under Unbounded Gradients and
Affine Variance Noise [4.9495085874952895]
我々はAdamが高い確率で定常点に収束できることを示し、$mathcalOleft(rm poly(log T)/sqrtTright)$を座標ワイドな「アフィン」ノイズ分散の下で表す。
また、Adamの閉包は$mathcalOleft(rm poly(left T)right)$の順序でノイズレベルに適応していることも明らかにされている。
論文 参考訳(メタデータ) (2023-11-03T15:55:53Z) - Closing the Gap Between the Upper Bound and the Lower Bound of Adam's
Iteration Complexity [51.96093077151991]
我々はAdamの新しい収束保証を導出し、$L$-smooth条件と有界雑音分散仮定のみを導出する。
本証明は,運動量と適応学習率の絡み合いを扱うために,新しい手法を利用する。
論文 参考訳(メタデータ) (2023-10-27T09:16:58Z) - Convergence of Adam for Non-convex Objectives: Relaxed Hyperparameters
and Non-ergodic Case [0.0]
本稿では,バニラ・アダムの収束と非エルゴード収束の課題について考察する。
これらの発見は、非ゴーディック最適化問題を解くために、Adamの確固たる理論基盤を構築する。
論文 参考訳(メタデータ) (2023-07-20T12:02:17Z) - UAdam: Unified Adam-Type Algorithmic Framework for Non-Convex Stochastic
Optimization [20.399244578926474]
我々は,Adam型アルゴリズム(UAdam)の統一フレームワークを導入する。
これは、NAdamBound、AdaFom、Adanといった2階のモーメントの一般的な形式を備えている。
UAdam が定常点の近傍に収束して $mathcalO (1/T)$ となることを示す。
論文 参考訳(メタデータ) (2023-05-09T13:07:03Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Provable Adaptivity in Adam [87.29083241928804]
我々はアダムが局所的な滑らかさ条件に適応し、アダムの強調適応性を正当化できると主張している。
我々の結果は、適応的でないものよりも適応的勾配法の利点に光を当てるかもしれない。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Towards Practical Adam: Non-Convexity, Convergence Theory, and
Mini-Batch Acceleration [12.744658958445024]
Adamは、ディープニューラルネットワークをトレーニングするための最も影響力のある適応アルゴリズムの1つです。
適応学習率の低下、大きなバッチサイズの採用など、既存のアプローチは、Adam型アルゴリズムの収束を促進しようとしている。
本稿では,履歴ベース学習率のパラメータにのみ依存する,代替的な簡易チェック条件を提案する。
論文 参考訳(メタデータ) (2021-01-14T06:42:29Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。