論文の概要: Adam revisited: a weighted past gradients perspective
- arxiv url: http://arxiv.org/abs/2101.00238v1
- Date: Fri, 1 Jan 2021 14:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 11:06:14.415430
- Title: Adam revisited: a weighted past gradients perspective
- Title(参考訳): Adam氏再訪: 過去の勾配の重み付け
- Authors: Hui Zhong, Zaiyi Chen, Chuan Qin, Zai Huang, Vincent W. Zheng, Tong
Xu, Enhong Chen
- Abstract要約: 本稿では,非収束問題に取り組むための適応法重み付け適応アルゴリズム(wada)を提案する。
私たちは、WADAが重み付きデータ依存の後悔境界を達成できることを証明します。
- 参考スコア(独自算出の注目度): 57.54752290924522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive learning rate methods have been successfully applied in many fields,
especially in training deep neural networks. Recent results have shown that
adaptive methods with exponential increasing weights on squared past gradients
(i.e., ADAM, RMSPROP) may fail to converge to the optimal solution. Though many
algorithms, such as AMSGRAD and ADAMNC, have been proposed to fix the
non-convergence issues, achieving a data-dependent regret bound similar to or
better than ADAGRAD is still a challenge to these methods. In this paper, we
propose a novel adaptive method weighted adaptive algorithm (WADA) to tackle
the non-convergence issues. Unlike AMSGRAD and ADAMNC, we consider using a
milder growing weighting strategy on squared past gradient, in which weights
grow linearly. Based on this idea, we propose weighted adaptive gradient method
framework (WAGMF) and implement WADA algorithm on this framework. Moreover, we
prove that WADA can achieve a weighted data-dependent regret bound, which could
be better than the original regret bound of ADAGRAD when the gradients decrease
rapidly. This bound may partially explain the good performance of ADAM in
practice. Finally, extensive experiments demonstrate the effectiveness of WADA
and its variants in comparison with several variants of ADAM on training convex
problems and deep neural networks.
- Abstract(参考訳): 適応学習率法は多くの分野、特にディープニューラルネットワークのトレーニングにおいてうまく応用されている。
近年,2乗過去の勾配(ADAM, RMSPROP)の指数的増加重み付き適応法は最適解に収束しない可能性が示唆されている。
AMSGRAD や ADAMNC など多くのアルゴリズムが非収束問題を修正するために提案されているが、ADAGRAD と同様かそれ以上のデータ依存的後悔を実現することは、これらの手法の課題である。
本稿では,非収束問題に対処するために,新しい適応法重み付き適応アルゴリズム(WADA)を提案する。
AMSGRADやADAMNCとは異なり、重みが直線的に成長する2乗過去の勾配に対して、より緩やかに成長する重み付け戦略を検討する。
そこで本研究では, 重み付き適応勾配法フレームワーク (wagmf) を提案し, 和田アルゴリズムを実装した。
また,勾配が急速に低下すると,アダグラードの当初の後悔値よりも優れた重み付けデータ依存の後悔値が得られることを証明した。
この境界は、実際にADAMのパフォーマンスを部分的に説明できるかもしれない。
最後に、WADとその変種を、ADAMのいくつかの変種と比較して、凸問題やディープニューラルネットワークのトレーニングにおける有効性を示す。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - AA-DLADMM: An Accelerated ADMM-based Framework for Training Deep Neural
Networks [1.3812010983144802]
勾配降下(SGD)とその多くの変種は、ディープニューラルネットワークを訓練するための広範な最適化アルゴリズムである。
SGDは、勾配の消失、理論的保証の欠如、入力に対するかなりの感度など、避けられない欠点に悩まされている。
本稿では,この欠点に対処するため,Anderson Acceleration for Deep Learning ADMM (AA-DLADMM)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-08T01:22:00Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Divergence Results and Convergence of a Variance Reduced Version of ADAM [30.10316505009956]
我々はADAM型アルゴリズムが収束していることを示し、これは元々のADAMのばらつきを引き起こす勾配のばらつきを意味する。
数値実験により,提案アルゴリズムはADAMと同等の性能を示した。
論文 参考訳(メタデータ) (2022-10-11T16:54:56Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。