論文の概要: Convergence rates for the Adam optimizer
- arxiv url: http://arxiv.org/abs/2407.21078v1
- Date: Mon, 29 Jul 2024 22:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:35:32.249899
- Title: Convergence rates for the Adam optimizer
- Title(参考訳): アダムオプティマイザの収束率
- Authors: Steffen Dereich, Arnulf Jentzen,
- Abstract要約: 我々はAdamベクトル場と呼ばれる新しいベクトル場関数を提案する。
この場は、勾配アダム最適化過程を正確に記述するが、目的関数の負勾配とは異なる。
我々の収束解析は、アダムが目的関数の臨界点に収束しないことを明らかにする。
- 参考スコア(独自算出の注目度): 4.066869900592636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic gradient descent (SGD) optimization methods are nowadays the method of choice for the training of deep neural networks (DNNs) in artificial intelligence systems. In practically relevant training problems, usually not the plain vanilla standard SGD method is the employed optimization scheme but instead suitably accelerated and adaptive SGD optimization methods are applied. As of today, maybe the most popular variant of such accelerated and adaptive SGD optimization methods is the famous Adam optimizer proposed by Kingma & Ba in 2014. Despite the popularity of the Adam optimizer in implementations, it remained an open problem of research to provide a convergence analysis for the Adam optimizer even in the situation of simple quadratic stochastic optimization problems where the objective function (the function one intends to minimize) is strongly convex. In this work we solve this problem by establishing optimal convergence rates for the Adam optimizer for a large class of stochastic optimization problems, in particular, covering simple quadratic stochastic optimization problems. The key ingredient of our convergence analysis is a new vector field function which we propose to refer to as the Adam vector field. This Adam vector field accurately describes the macroscopic behaviour of the Adam optimization process but differs from the negative gradient of the objective function (the function we intend to minimize) of the considered stochastic optimization problem. In particular, our convergence analysis reveals that the Adam optimizer does typically not converge to critical points of the objective function (zeros of the gradient of the objective function) of the considered optimization problem but converges with rates to zeros of this Adam vector field.
- Abstract(参考訳): 確率勾配勾配(SGD)最適化法は、人工知能システムにおけるディープニューラルネットワーク(DNN)の訓練方法として、現在では選択されている。
実際に関係のあるトレーニング問題では、通常、普通のバニラ標準SGD法ではなく、最適化方式を採用するが、代わりに適切な加速と適応SGD最適化法を適用する。
今日現在、そのような加速および適応SGD最適化手法の最も一般的な変種は、2014年にKingma & Baによって提案された有名なアダム最適化である。
実装におけるアダム最適化器の人気にもかかわらず、目的関数(最小化を意図する関数)が強い凸であるような単純な2次確率最適化問題においても、アダム最適化器の収束解析を提供することは研究のオープンな問題であった。
本研究では,Adamオプティマイザに対して,大規模な確率最適化問題,特に単純な2次確率最適化問題に対する最適収束率を確立することで,この問題を解決する。
収束解析の鍵となる要素は、アダムベクトル場と呼ぶ新しいベクトル場関数である。
このアダムベクトル場は、アダム最適化過程のマクロ的挙動を正確に記述するが、対象関数(最小化しようとする関数)の負の勾配とは異なる。
特に、収束解析により、アダム最適化は一般に最適化問題の目的関数(目的関数の勾配の零点)の臨界点に収束しないが、このアダムベクトル場の零点に収束する。
関連論文リスト
- A Particle-based Sparse Gaussian Process Optimizer [5.672919245950197]
本稿では,下降の動的過程を利用した新しいスワム・スワムベースのフレームワークを提案する。
このアプローチの最大の利点は、降下を決定する前に現在の状態についてより深い探索を行うことである。
論文 参考訳(メタデータ) (2022-11-26T09:06:15Z) - An Empirical Evaluation of Zeroth-Order Optimization Methods on
AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。
ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。
本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文 参考訳(メタデータ) (2022-10-27T01:58:10Z) - SADAM: Stochastic Adam, A Stochastic Operator for First-Order
Gradient-based Optimizer [8.93274096260726]
本稿では,一階降下アルゴリズムの演算子として行う戦略を提案し,解析し,一般化する。
既存のアルゴリズムとは異なり、提案手法ではバッチやサンプリング技術は一切必要としない。
論文 参考訳(メタデータ) (2022-05-20T15:20:19Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Recent Theoretical Advances in Non-Convex Optimization [56.88981258425256]
近年、深層ネットワークにおける非最適化アルゴリズムの解析やデータ問題への関心が高まっており、非最適化のための理論的最適化アルゴリズムの最近の結果の概要を概説する。
論文 参考訳(メタデータ) (2020-12-11T08:28:51Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - Adaptive First-and Zeroth-order Methods for Weakly Convex Stochastic
Optimization Problems [12.010310883787911]
我々は、弱凸(おそらく非滑らかな)最適化問題の重要なクラスを解くための、適応的な段階的な新しい手法の族を解析する。
実験結果から,提案アルゴリズムが0次勾配降下と設計変動を経験的に上回ることを示す。
論文 参考訳(メタデータ) (2020-05-19T07:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。