論文の概要: Non-Convergence and Limit Cycles in the Adam optimizer
- arxiv url: http://arxiv.org/abs/2210.02070v1
- Date: Wed, 5 Oct 2022 07:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 15:29:46.775633
- Title: Non-Convergence and Limit Cycles in the Adam optimizer
- Title(参考訳): adamオプティマイザにおける非収束と極限サイクル
- Authors: Sebastian Bock and Martin Georg Wei{\ss}
- Abstract要約: 本稿では,2周期の極限周期が2次目的関数のバッチモードに存在することを示す。
これらの極限周期の安定性を解析し、近似収束が示される他の結果と分析を関連付ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the most popular training algorithms for deep neural networks is the
Adaptive Moment Estimation (Adam) introduced by Kingma and Ba. Despite its
success in many applications there is no satisfactory convergence analysis:
only local convergence can be shown for batch mode under some restrictions on
the hyperparameters, counterexamples exist for incremental mode. Recent results
show that for simple quadratic objective functions limit cycles of period 2
exist in batch mode, but only for atypical hyperparameters, and only for the
algorithm without bias correction. %More general there are several more
adaptive gradient methods which try to estimate a fitting learning rate and /
or search direction from the training data to improve the learning process
compared to pure gradient descent with fixed learningrate. We extend the
convergence analysis for Adam in the batch mode with bias correction and show
that even for quadratic objective functions as the simplest case of convex
functions 2-limit-cycles exist, for all choices of the hyperparameters. We
analyze the stability of these limit cycles and relate our analysis to other
results where approximate convergence was shown, but under the additional
assumption of bounded gradients which does not apply to quadratic functions.
The investigation heavily relies on the use of computer algebra due to the
complexity of the equations.
- Abstract(参考訳): ディープニューラルネットワークのための最も一般的なトレーニングアルゴリズムの1つは、KingmaとBaによって導入されたAdaptive Moment Estimation (Adam)である。
多くのアプリケーションで成功しているにもかかわらず、収束解析は満足できるものではない: 局所収束のみをハイパーパラメータの制限下でバッチモードに表示できるため、インクリメンタルモードには逆例が存在する。
近年の研究では,2周期の2次目的関数の制限サイクルがバッチモードに存在するが,非典型的ハイパーパラメータのみであり,バイアス補正のないアルゴリズムに限られていることが示されている。
%) より適応的な勾配法がいくつか存在し, トレーニングデータから適度な学習率および/または探索方向を推定し, 定型学習率による純勾配勾配よりも学習過程を改善する。
バッチモードにおけるAdamの収束解析をバイアス補正で拡張し、凸関数の最も単純な場合である二次目的関数に対しても、ハイパーパラメータのすべての選択に対して2-極限サイクルが存在することを示す。
これらの極限サイクルの安定性を解析し、近似収束が示された他の結果と関係づけるが、二次関数には適用されない有界勾配の追加仮定下で解析を行う。
この調査は、方程式の複雑さのため、計算機代数の使用に大きく依存している。
関連論文リスト
- From Gradient Clipping to Normalization for Heavy Tailed SGD [19.369399536643773]
最近の実証的な証拠は、機械学習の応用が重尾ノイズを伴い、実際に有界分散の標準的な仮定に挑戦していることを示している。
本稿では, 勾配依存型雑音収束問題において, テール雑音下での厳密性を実現することができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:01Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - High-Probability Bounds for Stochastic Optimization and Variational
Inequalities: the Case of Unbounded Variance [59.211456992422136]
制約の少ない仮定の下で高確率収束結果のアルゴリズムを提案する。
これらの結果は、標準機能クラスに適合しない問題を最適化するために検討された手法の使用を正当化する。
論文 参考訳(メタデータ) (2023-02-02T10:37:23Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - A Unified Analysis of First-Order Methods for Smooth Games via Integral
Quadratic Constraints [10.578409461429626]
本研究では、滑らかで強可変なゲームやイテレーションのための一階法に積分二次的制約理論を適用する。
我々は、負の運動量法(NM)に対して、既知の下界と一致する複雑性$mathcalO(kappa1.5)$で、初めて大域収束率を与える。
一段階のメモリを持つアルゴリズムでは,バッチ毎に1回だけ勾配を問合せすれば,高速化は不可能であることを示す。
論文 参考訳(メタデータ) (2020-09-23T20:02:00Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Stochastic Proximal Gradient Algorithm with Minibatches. Application to
Large Scale Learning Models [2.384873896423002]
非滑らかな成分を持つ汎用合成対象関数に対する勾配アルゴリズムのミニバッチ変種を開発し解析する。
我々は、最小バッチサイズ$N$に対して、$mathcalO(frac1Nepsilon)$$epsilon-$subityが最適解に期待される二次距離で達成されるような、定数および変数のステップサイズ反復ポリシーの複雑さを提供する。
論文 参考訳(メタデータ) (2020-03-30T10:43:56Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z) - Convergence and sample complexity of gradient methods for the model-free
linear quadratic regulator problem [27.09339991866556]
本稿では,コントローラの空間を直接探索することにより,未知の計算系に対する最適制御を求める。
我々は、安定化フィードバックゲインの勾配-フローのダイナミクスセットに焦点をあてて、そのような手法の性能と効率を最小化するための一歩を踏み出した。
論文 参考訳(メタデータ) (2019-12-26T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。