論文の概要: AdaX: Adaptive Gradient Descent with Exponential Long Term Memory
- arxiv url: http://arxiv.org/abs/2004.09740v2
- Date: Mon, 4 May 2020 21:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 06:03:30.847318
- Title: AdaX: Adaptive Gradient Descent with Exponential Long Term Memory
- Title(参考訳): adax: 指数型長期記憶を用いた適応勾配降下
- Authors: Wenjie Li, Zhaoyang Zhang, Xinjiang Wang, Ping Luo
- Abstract要約: 我々は、単純な非ビジョン機械学習タスクにおいて、その性能を分析することでAdamの問題を解析する。
この問題を解決するために,AdaX という新しい適応勾配を提案する。
AdaXは様々な自然言語処理タスクにおいてAdamより優れています。
- 参考スコア(独自算出の注目度): 34.6432726391469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although adaptive optimization algorithms such as Adam show fast convergence
in many machine learning tasks, this paper identifies a problem of Adam by
analyzing its performance in a simple non-convex synthetic problem, showing
that Adam's fast convergence would possibly lead the algorithm to local
minimums. To address this problem, we improve Adam by proposing a novel
adaptive gradient descent algorithm named AdaX. Unlike Adam that ignores the
past gradients, AdaX exponentially accumulates the long-term gradient
information in the past during training, to adaptively tune the learning rate.
We thoroughly prove the convergence of AdaX in both the convex and non-convex
settings. Extensive experiments show that AdaX outperforms Adam in various
tasks of computer vision and natural language processing and can catch up with
Stochastic Gradient Descent.
- Abstract(参考訳): アダムのような適応最適化アルゴリズムは、多くの機械学習タスクで高速収束を示すが、本論文は、アダムの問題を単純な非凸合成問題で解析することで特定し、アダムの高速収束がアルゴリズムを局所最小に導く可能性を示す。
この問題に対処するために,新しい適応勾配降下アルゴリズムadaxを提案することでadamを改善する。
過去の勾配を無視したAdamとは異なり、AdaXはトレーニング中に過去の長期勾配情報を指数関数的に蓄積し、学習率を適応的に調整する。
凸と非凸の両方の設定におけるAdaXの収束を徹底的に証明する。
大規模な実験により、AdaXはコンピュータビジョンや自然言語処理の様々なタスクにおいてAdamより優れており、Stochastic Gradient Descentに追いつくことができることがわかった。
関連論文リスト
- AdamL: A fast adaptive gradient method incorporating loss function [1.6025685183216696]
本稿では,Adamの新たな変種であるAdamLを提案する。
我々は,Adam,EAdam,AdaBeliefと比較して,AdamLが最速収束あるいは最小目標関数値を達成することを示す。
バニラ畳み込みニューラルネットワークの場合、AdamLは他のAdamの変種とは違い、トレーニングの後半段階では学習率を手動で調整する必要がなくなる。
論文 参考訳(メタデータ) (2023-12-23T16:32:29Z) - StochGradAdam: Accelerating Neural Networks Training with Stochastic Gradient Sampling [0.0]
我々はAdamアルゴリズムの新たな拡張であるStochGradAdamを紹介し、勾配サンプリング手法を取り入れた。
StochGradAdamは、イテレーション毎の勾配更新が少ない場合でも、Adamに匹敵する、あるいは優れたパフォーマンスを実現している。
その結果,このアプローチは大規模モデルやデータセットに特に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-25T22:45:31Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Generalized AdaGrad (G-AdaGrad) and Adam: A State-Space Perspective [0.0]
非機械学習問題の解法として,高速で一般化されたAdaGrad(G-AdaGrad)を提案する。
具体的には、G-AdaGradとAdamという収束加速アルゴリズムを解析するために状態空間の視点を採用する。
論文 参考訳(メタデータ) (2021-05-31T20:30:25Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。