論文の概要: Adam symmetry theorem: characterization of the convergence of the stochastic Adam optimizer
- arxiv url: http://arxiv.org/abs/2511.06675v1
- Date: Mon, 10 Nov 2025 03:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.061256
- Title: Adam symmetry theorem: characterization of the convergence of the stochastic Adam optimizer
- Title(参考訳): アダム対称性定理:確率アダムオプティマイザの収束の特徴づけ
- Authors: Steffen Dereich, Thang Do, Arnulf Jentzen, Philippe von Wurstemberger,
- Abstract要約: 我々は、アダムが収束する単純二次強凸 SOP のクラスを、勾配ステップの数が無限大に増加するにつれて証明する。
特に、SOP の確率変数が対称分布でない標準的な場合、アダムが SOP の最小値に収束すると、アダムのステップの数が無限大に増加する。
- 参考スコア(独自算出の注目度): 1.9015962471041752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Beside the standard stochastic gradient descent (SGD) method, the Adam optimizer due to Kingma & Ba (2014) is currently probably the best-known optimization method for the training of deep neural networks in artificial intelligence (AI) systems. Despite the popularity and the success of Adam it remains an \emph{open research problem} to provide a rigorous convergence analysis for Adam even for the class of strongly convex SOPs. In one of the main results of this work we establish convergence rates for Adam in terms of the number of gradient steps (convergence rate \nicefrac{1}{2} w.r.t. the size of the learning rate), the size of the mini-batches (convergence rate 1 w.r.t. the size of the mini-batches), and the size of the second moment parameter of Adam (convergence rate 1 w.r.t. the distance of the second moment parameter to 1) for the class of strongly convex SOPs. In a further main result of this work, which we refer to as \emph{Adam symmetry theorem}, we illustrate the optimality of the established convergence rates by proving for a special class of simple quadratic strongly convex SOPs that Adam converges as the number of gradient steps increases to infinity to the solution of the SOP (the unique minimizer of the strongly convex objective function) if and \emph{only} if the random variables in the SOP (the data in the SOP) are \emph{symmetrically distributed}. In particular, in the standard case where the random variables in the SOP are not symmetrically distributed we \emph{disprove} that Adam converges to the minimizer of the SOP as the number of Adam steps increases to infinity. We also complement the conclusions of our convergence analysis and the Adam symmetry theorem by several numerical simulations that indicate the sharpness of the established convergence rates and that illustrate the practical appearance of the phenomena revealed in the \emph{Adam symmetry theorem}.
- Abstract(参考訳): 標準的な確率勾配降下法(SGD)の他に、Kingma & Ba (2014)によるアダム最適化法は、人工知能(AI)システムにおけるディープニューラルネットワークのトレーニングのための最もよく知られた最適化法である。
アダムの人気と成功にもかかわらず、強い凸 SOP のクラスでさえも、アダムに対して厳密な収束解析を提供するための「emph{open research problem」が残っている。
この研究の主な成果の1つは、勾配ステップの数(収束速度 \nicefrac{1}{2} w.r.t.t. 学習速度のサイズ)、ミニバッチのサイズ(収束速度 1 w.r.t. ミニバッチのサイズ)、アダムの第2モーメントパラメータのサイズ(収束速度 1 w.r.t. 強い凸SOPのクラスに対する第2モーメントパラメータから1への距離)でアダムの収束率を確立することである。
この研究の更なる主要な結果として、我々は 'emph{Adam symmetric theorem} として、Adam が SOP の解(強凸目的関数の唯一の極小化器)への無限大への勾配ステップの数が増加するにつれて収束する2次強凸 SOP の特殊クラスを証明し、確立された収束率の最適性を説明する。
特に、SOP の確率変数が対称分布でない標準的な場合、アダムの段数が無限に増加するにつれて、アダムは SOP の最小値に収束する。
また、収束解析とアダム対称性定理の結論を、確立された収束率のシャープネスを示すいくつかの数値シミュレーションによって補うとともに、デフ・アダム対称性定理(英語版)で示された現象の実際的な外観を示す。
関連論文リスト
- Convergence Guarantees for RMSProp and Adam in Generalized-smooth Non-convex Optimization with Affine Noise Variance [23.112775335244258]
我々はまず,適応学習率を持つAdamの特殊なケースであるRMSPropを分析する。
我々は、勾配ノルムの関数でもある降下補題において、新しい上界一階項を開発する。
RMSPropとAdamの両者の結果は、citearvani2023lowerで確立された複雑さと一致した。
論文 参考訳(メタデータ) (2024-04-01T19:17:45Z) - On the Convergence of Adam under Non-uniform Smoothness: Separability from SGDM and Beyond [35.65852208995095]
我々は,非一様有界な滑らかさの条件下で,AdamがSGDMよりも高速な収束を実現することを示した。
その結果,(1)決定論的環境下では,Adamは決定論的一階の収束率の既知下限を達成でき,一方,GDM(Gradient Descent with Momentum)の収束率は初期関数値に高い順序依存性を持つことがわかった。
論文 参考訳(メタデータ) (2024-03-22T11:57:51Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z) - Non-asymptotic Convergence of Adam-type Reinforcement Learning
Algorithms under Markovian Sampling [56.394284787780364]
本稿では、ポリシー勾配(PG)と時間差(TD)学習の2つの基本RLアルゴリズムに対して、最初の理論的収束解析を行う。
一般の非線形関数近似の下では、PG-AMSGradは定常点の近傍に収束し、$mathcalO(log T/sqrtT)$である。
線形関数近似の下では、一定段階のTD-AMSGradは$mathcalO(log T/sqrtT)の速度で大域的最適化の近傍に収束する。
論文 参考訳(メタデータ) (2020-02-15T00:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。