論文の概要: UAdam: Unified Adam-Type Algorithmic Framework for Non-Convex Stochastic
Optimization
- arxiv url: http://arxiv.org/abs/2305.05675v1
- Date: Tue, 9 May 2023 13:07:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 15:41:56.391697
- Title: UAdam: Unified Adam-Type Algorithmic Framework for Non-Convex Stochastic
Optimization
- Title(参考訳): UAdam:非凸確率最適化のための統一Adam型アルゴリズムフレームワーク
- Authors: Yiming Jiang, Jinlan Liu, Dongpo Xu, Danilo P. Mandic
- Abstract要約: 我々は,Adam型アルゴリズム(UAdam)の統一フレームワークを導入する。
これは、NAdamBound、AdaFom、Adanといった2階のモーメントの一般的な形式を備えている。
UAdam が定常点の近傍に収束して $mathcalO (1/T)$ となることを示す。
- 参考スコア(独自算出の注目度): 20.399244578926474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adam-type algorithms have become a preferred choice for optimisation in the
deep learning setting, however, despite success, their convergence is still not
well understood. To this end, we introduce a unified framework for Adam-type
algorithms (called UAdam). This is equipped with a general form of the
second-order moment, which makes it possible to include Adam and its variants
as special cases, such as NAdam, AMSGrad, AdaBound, AdaFom, and Adan. This is
supported by a rigorous convergence analysis of UAdam in the non-convex
stochastic setting, showing that UAdam converges to the neighborhood of
stationary points with the rate of $\mathcal{O}(1/T)$. Furthermore, the size of
neighborhood decreases as $\beta$ increases. Importantly, our analysis only
requires the first-order momentum factor to be close enough to 1, without any
restrictions on the second-order momentum factor. Theoretical results also show
that vanilla Adam can converge by selecting appropriate hyperparameters, which
provides a theoretical guarantee for the analysis, applications, and further
developments of the whole class of Adam-type algorithms.
- Abstract(参考訳): アダム型アルゴリズムは、ディープラーニング環境では最適化の選択肢として好まれているが、成功にもかかわらず、その収束性はまだよく分かっていない。
この目的のために,Adam型アルゴリズム(UAdam)の統一フレームワークを導入する。
これは2階のモーメントの一般的な形式を備えており、NAdam、AMSGrad、AdaBound、AdaFom、AdanといったAdamとその変種を特別なケースとして含めることができる。
これは、非凸確率環境でのUAdamの厳密な収束解析によって支えられ、UAdamが$\mathcal{O}(1/T)$の確率で定常点の近傍に収束することを示す。
さらに、$\beta$が増加すると、近傍の大きさが減少する。
重要視されるのは, 1次運動量係数が 1 に近いことのみであり, 2次運動量係数に制限がないことである。
理論的な結果は、バニラ・アダムが適切なハイパーパラメータを選択することで収束し、アダム型アルゴリズムのクラス全体の解析、応用、さらなる発展の理論的保証を提供することを示している。
関連論文リスト
- A Comprehensive Framework for Analyzing the Convergence of Adam: Bridging the Gap with SGD [28.905886549938305]
本稿では,Adamの収束特性を解析するための,新しい包括的枠組みを提案する。
我々は、アダムが漸近的でない複雑性サンプルを勾配降下の値と類似して得ることを示す。
論文 参考訳(メタデータ) (2024-10-06T12:15:00Z) - On Convergence of Adam for Stochastic Optimization under Relaxed
Assumptions [4.9495085874952895]
Adaptive Momentum Estimation (Adam)アルゴリズムは、様々なディープラーニングタスクにおいて非常に効果的である。
この一般的な雑音モデルの下で,Adamは高い反復率で定常点のばらつきを見いだせることを示す。
論文 参考訳(メタデータ) (2024-02-06T13:19:26Z) - Convergence of Adam for Non-convex Objectives: Relaxed Hyperparameters
and Non-ergodic Case [0.0]
本稿では,バニラ・アダムの収束と非エルゴード収束の課題について考察する。
これらの発見は、非ゴーディック最適化問題を解くために、Adamの確固たる理論基盤を構築する。
論文 参考訳(メタデータ) (2023-07-20T12:02:17Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z) - Non-asymptotic Convergence of Adam-type Reinforcement Learning
Algorithms under Markovian Sampling [56.394284787780364]
本稿では、ポリシー勾配(PG)と時間差(TD)学習の2つの基本RLアルゴリズムに対して、最初の理論的収束解析を行う。
一般の非線形関数近似の下では、PG-AMSGradは定常点の近傍に収束し、$mathcalO(log T/sqrtT)$である。
線形関数近似の下では、一定段階のTD-AMSGradは$mathcalO(log T/sqrtT)の速度で大域的最適化の近傍に収束する。
論文 参考訳(メタデータ) (2020-02-15T00:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。