論文の概要: Divergence Results and Convergence of a Variance Reduced Version of ADAM
- arxiv url: http://arxiv.org/abs/2210.05607v1
- Date: Tue, 11 Oct 2022 16:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:49:53.307539
- Title: Divergence Results and Convergence of a Variance Reduced Version of ADAM
- Title(参考訳): ADAMの可変化バージョンにおけるダイバージェンス結果と収束性
- Authors: Ruiqi Wang and Diego Klabjan
- Abstract要約: 我々はADAM型アルゴリズムが収束していることを示し、これは元々のADAMのばらつきを引き起こす勾配のばらつきを意味する。
数値実験により,提案アルゴリズムはADAMと同等の性能を示した。
- 参考スコア(独自算出の注目度): 30.10316505009956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic optimization algorithms using exponential moving averages of the
past gradients, such as ADAM, RMSProp and AdaGrad, have been having great
successes in many applications, especially in training deep neural networks.
ADAM in particular stands out as efficient and robust. Despite of its
outstanding performance, ADAM has been proved to be divergent for some specific
problems. We revisit the divergent question and provide divergent examples
under stronger conditions such as in expectation or high probability. Under a
variance reduction assumption, we show that an ADAM-type algorithm converges,
which means that it is the variance of gradients that causes the divergence of
original ADAM. To this end, we propose a variance reduced version of ADAM and
provide a convergent analysis of the algorithm. Numerical experiments show that
the proposed algorithm has as good performance as ADAM. Our work suggests a new
direction for fixing the convergence issues.
- Abstract(参考訳): ADAM、RMSProp、AdaGradといった過去の勾配の指数的な移動平均を用いた確率最適化アルゴリズムは、多くのアプリケーション、特にディープニューラルネットワークのトレーニングにおいて大きな成功を収めている。
特にADAMは効率的で堅牢である。
優れた性能にもかかわらず、ADAMはいくつかの特定の問題に対して相違があることが証明されている。
発散問題を再検討し、期待や高い確率といったより強い条件下で発散例を提供する。
分散還元仮定の下では、ADAM型アルゴリズムが収束することを示し、これは元々のADAMのばらつきを引き起こす勾配の分散であることを意味する。
そこで本研究では,ADAMの分散化バージョンを提案し,アルゴリズムの収束解析を行う。
数値実験により,提案アルゴリズムはADAMと同等の性能を示した。
我々の研究は収束問題を解決するための新しい方向を示唆している。
関連論文リスト
- Covariance-Adaptive Sequential Black-box Optimization for Diffusion Targeted Generation [60.41803046775034]
ユーザのブラックボックス目標スコアのみを用いた拡散モデルを用いて,ユーザ優先のターゲット生成を行う方法を示す。
数値実験問題と目標誘導型3次元分子生成タスクの両方の実験により,より優れた目標値を得る上で,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-06-02T17:26:27Z) - AA-DLADMM: An Accelerated ADMM-based Framework for Training Deep Neural
Networks [1.3812010983144802]
勾配降下(SGD)とその多くの変種は、ディープニューラルネットワークを訓練するための広範な最適化アルゴリズムである。
SGDは、勾配の消失、理論的保証の欠如、入力に対するかなりの感度など、避けられない欠点に悩まされている。
本稿では,この欠点に対処するため,Anderson Acceleration for Deep Learning ADMM (AA-DLADMM)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T01:22:00Z) - Moreau Envelope ADMM for Decentralized Weakly Convex Optimization [55.2289666758254]
本稿では,分散最適化のための乗算器の交互方向法(ADMM)の近位変種を提案する。
数値実験の結果,本手法は広く用いられている手法よりも高速かつ堅牢であることが示された。
論文 参考訳(メタデータ) (2023-08-31T14:16:30Z) - Optimizing PatchCore for Few/many-shot Anomaly Detection [0.0]
Few-shot Anomaly Detection (AD)は、ADの新たなサブフィールドである。
本稿では,現在最先端のフルショットAD/ASアルゴリズムであるPatchCoreの性能について,複数ショット設定と多ショット設定の両方で検討する。
論文 参考訳(メタデータ) (2023-07-20T11:45:38Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Local Convergence of Adaptive Gradient Descent Optimizers [0.0]
適応モーメント推定 (adaptive moment estimation, adam) は深層ニューラルネットワークのための非常に一般的なアルゴリズムであり、適応勾配降下の族に属する。
ADAMの完全な分析は存在しない。
本論文はバッチモードにおける決定論的収束解析の一手法である。
論文 参考訳(メタデータ) (2021-02-19T08:36:13Z) - Adam revisited: a weighted past gradients perspective [57.54752290924522]
本稿では,非収束問題に取り組むための適応法重み付け適応アルゴリズム(wada)を提案する。
私たちは、WADAが重み付きデータ依存の後悔境界を達成できることを証明します。
論文 参考訳(メタデータ) (2021-01-01T14:01:52Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Disentangled Representation Learning and Generation with Manifold
Optimization [10.69910379275607]
本研究は,変分方向の促進による絡み合いを明確に促進する表現学習フレームワークを提案する。
理論的な議論と様々な実験により、提案モデルは、生成品質と非絡み合い表現学習の両方の観点から、多くのVAE変種よりも改善されていることが示された。
論文 参考訳(メタデータ) (2020-06-12T10:00:49Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。