Fugu-MT 論文翻訳(概要): Adam revisited: a weighted past gradients perspective

論文の概要: Adam revisited: a weighted past gradients perspective

arxiv url: http://arxiv.org/abs/2101.00238v1
Date: Fri, 1 Jan 2021 14:01:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-16 11:06:14.415430
Title: Adam revisited: a weighted past gradients perspective
Title（参考訳）: Adam氏再訪: 過去の勾配の重み付け
Authors: Hui Zhong, Zaiyi Chen, Chuan Qin, Zai Huang, Vincent W. Zheng, Tong Xu, Enhong Chen
Abstract要約: 本稿では,非収束問題に取り組むための適応法重み付け適応アルゴリズム(wada)を提案する。私たちは、WADAが重み付きデータ依存の後悔境界を達成できることを証明します。
参考スコア（独自算出の注目度）: 57.54752290924522
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adaptive learning rate methods have been successfully applied in many fields, especially in training deep neural networks. Recent results have shown that adaptive methods with exponential increasing weights on squared past gradients (i.e., ADAM, RMSPROP) may fail to converge to the optimal solution. Though many algorithms, such as AMSGRAD and ADAMNC, have been proposed to fix the non-convergence issues, achieving a data-dependent regret bound similar to or better than ADAGRAD is still a challenge to these methods. In this paper, we propose a novel adaptive method weighted adaptive algorithm (WADA) to tackle the non-convergence issues. Unlike AMSGRAD and ADAMNC, we consider using a milder growing weighting strategy on squared past gradient, in which weights grow linearly. Based on this idea, we propose weighted adaptive gradient method framework (WAGMF) and implement WADA algorithm on this framework. Moreover, we prove that WADA can achieve a weighted data-dependent regret bound, which could be better than the original regret bound of ADAGRAD when the gradients decrease rapidly. This bound may partially explain the good performance of ADAM in practice. Finally, extensive experiments demonstrate the effectiveness of WADA and its variants in comparison with several variants of ADAM on training convex problems and deep neural networks.
Abstract（参考訳）: 適応学習率法は多くの分野、特にディープニューラルネットワークのトレーニングにおいてうまく応用されている。近年,2乗過去の勾配(ADAM, RMSPROP)の指数的増加重み付き適応法は最適解に収束しない可能性が示唆されている。 AMSGRAD や ADAMNC など多くのアルゴリズムが非収束問題を修正するために提案されているが、ADAGRAD と同様かそれ以上のデータ依存的後悔を実現することは、これらの手法の課題である。本稿では,非収束問題に対処するために,新しい適応法重み付き適応アルゴリズム(WADA)を提案する。 AMSGRADやADAMNCとは異なり、重みが直線的に成長する2乗過去の勾配に対して、より緩やかに成長する重み付け戦略を検討する。そこで本研究では, 重み付き適応勾配法フレームワーク (wagmf) を提案し, 和田アルゴリズムを実装した。また,勾配が急速に低下すると,アダグラードの当初の後悔値よりも優れた重み付けデータ依存の後悔値が得られることを証明した。この境界は、実際にADAMのパフォーマンスを部分的に説明できるかもしれない。最後に、WADとその変種を、ADAMのいくつかの変種と比較して、凸問題やディープニューラルネットワークのトレーニングにおける有効性を示す。

関連論文リスト

SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。離散選択問題を連続的な部分集合最適化フレームワークに変換する。両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文参考訳（メタデータ） (2025-02-14T12:35:21Z)
MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文参考訳（メタデータ） (2024-11-15T18:57:39Z)
AA-DLADMM: An Accelerated ADMM-based Framework for Training Deep Neural Networks [1.3812010983144802]
勾配降下(SGD)とその多くの変種は、ディープニューラルネットワークを訓練するための広範な最適化アルゴリズムである。 SGDは、勾配の消失、理論的保証の欠如、入力に対するかなりの感度など、避けられない欠点に悩まされている。本稿では,この欠点に対処するため,Anderson Acceleration for Deep Learning ADMM (AA-DLADMM)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-01-08T01:22:00Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Divergence Results and Convergence of a Variance Reduced Version of ADAM [30.10316505009956]
我々はADAM型アルゴリズムが収束していることを示し、これは元々のADAMのばらつきを引き起こす勾配のばらつきを意味する。数値実験により,提案アルゴリズムはADAMと同等の性能を示した。
論文参考訳（メタデータ） (2022-10-11T16:54:56Z)
Exploiting Adam-like Optimization Algorithms to Improve the Performance of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。 resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文参考訳（メタデータ） (2021-03-26T18:55:08Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)
MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文参考訳（メタデータ） (2020-06-21T21:47:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。