論文の概要: High Probability Convergence of Adam Under Unbounded Gradients and
Affine Variance Noise
- arxiv url: http://arxiv.org/abs/2311.02000v1
- Date: Fri, 3 Nov 2023 15:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 13:30:14.944227
- Title: High Probability Convergence of Adam Under Unbounded Gradients and
Affine Variance Noise
- Title(参考訳): 非有界勾配およびアフィン変動雑音下でのアダムの高確率収束
- Authors: Yusu Hong and Junhong Lin
- Abstract要約: 我々はAdamが高い確率で定常点に収束できることを示し、$mathcalOleft(rm poly(log T)/sqrtTright)$を座標ワイドな「アフィン」ノイズ分散の下で表す。
また、Adamの閉包は$mathcalOleft(rm poly(left T)right)$の順序でノイズレベルに適応していることも明らかにされている。
- 参考スコア(独自算出の注目度): 4.9495085874952895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the convergence of the Adaptive Moment Estimation
(Adam) algorithm under unconstrained non-convex smooth stochastic
optimizations. Despite the widespread usage in machine learning areas, its
theoretical properties remain limited. Prior researches primarily investigated
Adam's convergence from an expectation view, often necessitating strong
assumptions like uniformly stochastic bounded gradients or problem-dependent
knowledge in prior. As a result, the applicability of these findings in
practical real-world scenarios has been constrained. To overcome these
limitations, we provide a deep analysis and show that Adam could converge to
the stationary point in high probability with a rate of $\mathcal{O}\left({\rm
poly}(\log T)/\sqrt{T}\right)$ under coordinate-wise "affine" variance noise,
not requiring any bounded gradient assumption and any problem-dependent
knowledge in prior to tune hyper-parameters. Additionally, it is revealed that
Adam confines its gradients' magnitudes within an order of
$\mathcal{O}\left({\rm poly}(\log T)\right)$. Finally, we also investigate a
simplified version of Adam without one of the corrective terms and obtain a
convergence rate that is adaptive to the noise level.
- Abstract(参考訳): 本稿では,制約のない非凸スムース確率最適化における適応モーメント推定(adam)アルゴリズムの収束について検討する。
機械学習の分野では広く使われているが、理論的性質は限られている。
先行研究は主にアダムの収束を期待して研究し、一様確率的有界勾配や問題依存的知識のような強い仮定をしばしば必要としていた。
その結果、現実のシナリオにおけるこれらの発見の適用性は制約されている。
これらの制限を克服するために、Adam が高確率で定常点に収束できることを示す深い分析と、座標ワイドな「アフィン」分散雑音の下での$\mathcal{O}\left({\rm poly}(\log T)/\sqrt{T}\right)$で、超パラメータをチューニングする前に境界勾配仮定や問題依存知識を必要としないことを示す。
さらに、adam はその勾配の大きさを $\mathcal{o}\left({\rm poly}(\log t)\right)$ の順序で定義する。
最後に,修正項の1つを使わずにadamの簡易版を調査し,雑音レベルに適応した収束率を求める。
関連論文リスト
- A Comprehensive Framework for Analyzing the Convergence of Adam: Bridging the Gap with SGD [28.905886549938305]
本稿では,Adamの収束特性を解析するための,新しい包括的枠組みを提案する。
我々は、アダムが漸近的でない複雑性サンプルを勾配降下の値と類似して得ることを示す。
論文 参考訳(メタデータ) (2024-10-06T12:15:00Z) - Convergence Guarantees for RMSProp and Adam in Generalized-smooth Non-convex Optimization with Affine Noise Variance [23.112775335244258]
我々はまず,適応学習率を持つAdamの特殊なケースであるRMSPropを分析する。
我々は、勾配ノルムの関数でもある降下補題において、新しい上界一階項を開発する。
RMSPropとAdamの両者の結果は、citearvani2023lowerで確立された複雑さと一致した。
論文 参考訳(メタデータ) (2024-04-01T19:17:45Z) - On Convergence of Adam for Stochastic Optimization under Relaxed
Assumptions [4.9495085874952895]
Adaptive Momentum Estimation (Adam)アルゴリズムは、様々なディープラーニングタスクにおいて非常に効果的である。
この一般的な雑音モデルの下で,Adamは高い反復率で定常点のばらつきを見いだせることを示す。
論文 参考訳(メタデータ) (2024-02-06T13:19:26Z) - Closing the Gap Between the Upper Bound and the Lower Bound of Adam's
Iteration Complexity [51.96093077151991]
我々はAdamの新しい収束保証を導出し、$L$-smooth条件と有界雑音分散仮定のみを導出する。
本証明は,運動量と適応学習率の絡み合いを扱うために,新しい手法を利用する。
論文 参考訳(メタデータ) (2023-10-27T09:16:58Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - High-Probability Bounds for Stochastic Optimization and Variational
Inequalities: the Case of Unbounded Variance [59.211456992422136]
制約の少ない仮定の下で高確率収束結果のアルゴリズムを提案する。
これらの結果は、標準機能クラスに適合しない問題を最適化するために検討された手法の使用を正当化する。
論文 参考訳(メタデータ) (2023-02-02T10:37:23Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。