論文の概要: A Comprehensive Framework for Analyzing the Convergence of Adam: Bridging the Gap with SGD
- arxiv url: http://arxiv.org/abs/2410.04458v3
- Date: Fri, 13 Dec 2024 01:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:00:00.933636
- Title: A Comprehensive Framework for Analyzing the Convergence of Adam: Bridging the Gap with SGD
- Title(参考訳): アダムの収束度を総合的に分析するフレームワーク:SGDでギャップを埋める
- Authors: Ruinan Jin, Xiao Li, Yaoliang Yu, Baoxiang Wang,
- Abstract要約: 本稿では,Adamの収束特性を解析するための,新しい包括的枠組みを提案する。
我々は、アダムが漸近的でない複雑性サンプルを勾配降下の値と類似して得ることを示す。
- 参考スコア(独自算出の注目度): 28.905886549938305
- License:
- Abstract: Adaptive Moment Estimation (Adam) is a cornerstone optimization algorithm in deep learning, widely recognized for its flexibility with adaptive learning rates and efficiency in handling large-scale data. However, despite its practical success, the theoretical understanding of Adam's convergence has been constrained by stringent assumptions, such as almost surely bounded stochastic gradients or uniformly bounded gradients, which are more restrictive than those typically required for analyzing stochastic gradient descent (SGD). In this paper, we introduce a novel and comprehensive framework for analyzing the convergence properties of Adam. This framework offers a versatile approach to establishing Adam's convergence. Specifically, we prove that Adam achieves asymptotic (last iterate sense) convergence in both the almost sure sense and the \(L_1\) sense under the relaxed assumptions typically used for SGD, namely \(L\)-smoothness and the ABC inequality. Meanwhile, under the same assumptions, we show that Adam attains non-asymptotic sample complexity bounds similar to those of SGD.
- Abstract(参考訳): アダプティブモーメント推定(アダプティブモーメント推定、Adaptive Moment Estimation、Adam)は、大規模データの処理において、適応的な学習率と効率性を備えた、ディープラーニングの基盤となる最適化アルゴリズムである。
しかし、その実際的な成功にもかかわらず、アダムの収束の理論的理解は、ほぼ確実に有界な確率勾配や一様有界な勾配といった厳密な仮定によって制限されており、これは確率勾配勾配(SGD)の分析に通常必要とされるものよりも制限的である。
本稿では,Adamの収束特性を解析するための,新しい包括的枠組みを提案する。
このフレームワークはアダムの収束を確立するための汎用的なアプローチを提供する。
具体的には、Adam がほぼ確実な意味で漸近的(最後の反復感覚)収束と、SGD によく用いられる緩和された仮定、すなわち \(L\)-滑らかさと ABC の不等式の下での \(L_1\) 感覚の両方を達成することを証明している。
一方、同じ仮定の下で、AdamはSGDと似た非漸近的なサンプル複雑性を持つことを示す。
関連論文リスト
- On the Convergence of Adam under Non-uniform Smoothness: Separability from SGDM and Beyond [35.65852208995095]
我々は,非一様有界な滑らかさの条件下で,AdamがSGDMよりも高速な収束を実現することを示した。
その結果,(1)決定論的環境下では,Adamは決定論的一階の収束率の既知下限を達成でき,一方,GDM(Gradient Descent with Momentum)の収束率は初期関数値に高い順序依存性を持つことがわかった。
論文 参考訳(メタデータ) (2024-03-22T11:57:51Z) - High Probability Convergence of Adam Under Unbounded Gradients and
Affine Variance Noise [4.9495085874952895]
我々はAdamが高い確率で定常点に収束できることを示し、$mathcalOleft(rm poly(log T)/sqrtTright)$を座標ワイドな「アフィン」ノイズ分散の下で表す。
また、Adamの閉包は$mathcalOleft(rm poly(left T)right)$の順序でノイズレベルに適応していることも明らかにされている。
論文 参考訳(メタデータ) (2023-11-03T15:55:53Z) - UAdam: Unified Adam-Type Algorithmic Framework for Non-Convex Stochastic
Optimization [20.399244578926474]
我々は,Adam型アルゴリズム(UAdam)の統一フレームワークを導入する。
これは、NAdamBound、AdaFom、Adanといった2階のモーメントの一般的な形式を備えている。
UAdam が定常点の近傍に収束して $mathcalO (1/T)$ となることを示す。
論文 参考訳(メタデータ) (2023-05-09T13:07:03Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。