論文の概要: ODE approximation for the Adam algorithm: General and overparametrized setting
- arxiv url: http://arxiv.org/abs/2511.04622v1
- Date: Thu, 06 Nov 2025 18:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.554057
- Title: ODE approximation for the Adam algorithm: General and overparametrized setting
- Title(参考訳): AdamアルゴリズムのODE近似:一般化と過度パラメータ設定
- Authors: Steffen Dereich, Arnulf Jentzen, Sebastian Kassing,
- Abstract要約: 我々は、Adamアルゴリズムが特定のベクトル場の流れの擬似軌跡であることを示す。
大域的ミニマの近傍では、目的関数がアダムベクトル場によって誘導される流れのリアプノフ関数として機能することを示す。
- 参考スコア(独自算出の注目度): 2.765561545873517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Adam optimizer is currently presumably the most popular optimization method in deep learning. In this article we develop an ODE based method to study the Adam optimizer in a fast-slow scaling regime. For fixed momentum parameters and vanishing step-sizes, we show that the Adam algorithm is an asymptotic pseudo-trajectory of the flow of a particular vector field, which is referred to as the Adam vector field. Leveraging properties of asymptotic pseudo-trajectories, we establish convergence results for the Adam algorithm. In particular, in a very general setting we show that if the Adam algorithm converges, then the limit must be a zero of the Adam vector field, rather than a local minimizer or critical point of the objective function. In contrast, in the overparametrized empirical risk minimization setting, the Adam algorithm is able to locally find the set of minima. Specifically, we show that in a neighborhood of the global minima, the objective function serves as a Lyapunov function for the flow induced by the Adam vector field. As a consequence, if the Adam algorithm enters a neighborhood of the global minima infinitely often, it converges to the set of global minima.
- Abstract(参考訳): AdamOptimatorは現在、ディープラーニングにおける最も一般的な最適化方法である。
本稿では,高速なスケーリングシステムにおいて,Adamオプティマイザを研究するためのODEベースの手法を開発する。
固定運動量パラメータやステップサイズがなくなる場合、アダムアルゴリズムは特定のベクトル場の流れの漸近的擬軌道であり、これはアダムベクトル場と呼ばれる。
漸近的擬軌道の性質を利用して、Adamアルゴリズムの収束結果を確立する。
特に、非常に一般的な設定では、アダムアルゴリズムが収束すると、極限は対象関数の局所最小化あるいは臨界点ではなく、アダムベクトル場の零点でなければならないことを示す。
対照的に、過度にパラメータ化された経験的リスク最小化設定では、Adamアルゴリズムは局所的にミニマの集合を見つけることができる。
具体的には、大域ミニマの近傍では、目的関数がアダムベクトル場によって誘導される流れのリアプノフ関数として機能することを示す。
その結果、アダムアルゴリズムが無限に大域ミニマの近傍に入ると、それは大域ミニマの集合に収束する。
関連論文リスト
- Convergence rates for the Adam optimizer [4.066869900592636]
我々はAdamベクトル場と呼ばれる新しいベクトル場関数を提案する。
この場は、勾配アダム最適化過程を正確に記述するが、目的関数の負勾配とは異なる。
我々の収束解析は、アダムが目的関数の臨界点に収束しないことを明らかにする。
論文 参考訳(メタデータ) (2024-07-29T22:49:04Z) - On Convergence of Adam for Stochastic Optimization under Relaxed Assumptions [4.189643331553922]
Adaptive Momentum Estimation (Adam)アルゴリズムは、様々なディープラーニングタスクにおいて非常に効果的である。
この一般的な雑音モデルの下で,Adamは高い反復率で定常点のばらつきを見いだせることを示す。
論文 参考訳(メタデータ) (2024-02-06T13:19:26Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - Non-asymptotic Convergence of Adam-type Reinforcement Learning
Algorithms under Markovian Sampling [56.394284787780364]
本稿では、ポリシー勾配(PG)と時間差(TD)学習の2つの基本RLアルゴリズムに対して、最初の理論的収束解析を行う。
一般の非線形関数近似の下では、PG-AMSGradは定常点の近傍に収束し、$mathcalO(log T/sqrtT)$である。
線形関数近似の下では、一定段階のTD-AMSGradは$mathcalO(log T/sqrtT)の速度で大域的最適化の近傍に収束する。
論文 参考訳(メタデータ) (2020-02-15T00:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。