論文の概要: MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients
- arxiv url: http://arxiv.org/abs/2006.11918v4
- Date: Sun, 4 Jul 2021 19:33:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 11:49:26.644732
- Title: MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients
- Title(参考訳): MaxVA: 観測変数の最大化によるステップサイズ適応の高速化
- Authors: Chen Zhu, Yu Cheng, Zhe Gan, Furong Huang, Jingjing Liu, Tom Goldstein
- Abstract要約: 本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
- 参考スコア(独自算出の注目度): 112.00379151834242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive gradient methods such as RMSProp and Adam use exponential moving
estimate of the squared gradient to compute adaptive step sizes, achieving
better convergence than SGD in face of noisy objectives. However, Adam can have
undesirable convergence behaviors due to unstable or extreme adaptive learning
rates. Methods such as AMSGrad and AdaBound have been proposed to stabilize the
adaptive learning rates of Adam in the later stage of training, but they do not
outperform Adam in some practical tasks such as training Transformers
\cite{transformer}. In this paper, we propose an adaptive learning rate
principle, in which the running mean of squared gradient in Adam is replaced by
a weighted mean, with weights chosen to maximize the estimated variance of each
coordinate. This results in a faster adaptation to the local gradient variance,
which leads to more desirable empirical convergence behaviors than Adam. We
prove the proposed algorithm converges under mild assumptions for nonconvex
stochastic optimization problems, and demonstrate the improved efficacy of our
adaptive averaging approach on machine translation, natural language
understanding and large-batch pretraining of BERT. The code is available at
https://github.com/zhuchen03/MaxVA.
- Abstract(参考訳): rmsprop や adam のような適応勾配法は、二乗勾配の指数的移動推定を用いて適応ステップサイズを計算し、ノイズの多い目的に対して sgd よりも収束性が良い。
しかし、アダムは不安定あるいは極端な適応学習率のために、望ましくない収束行動をとることができる。
AMSGrad や AdaBound といった手法は,Adam の適応学習率を安定化させる手法として提案されているが,Transformers \cite{transformer} などの実践的なタスクでは,Adam よりも優れているわけではない。
本稿では,adamにおける二乗勾配の走行平均を重み付け平均に置き換え,各座標の推定分散を最大化するために重みを選定した適応学習率原理を提案する。
これにより局所勾配分散への適応が速くなり、アダムよりも望ましい経験的収束行動がもたらされる。
提案アルゴリズムは,非凸確率最適化問題に対する軽度仮定の下で収束し,機械翻訳,自然言語理解,BERTの大規模事前学習における適応平均化手法の改善効果を示す。
コードはhttps://github.com/zhuchen03/maxvaで入手できる。
関連論文リスト
- StochGradAdam: Accelerating Neural Networks Training with Stochastic Gradient Sampling [0.0]
我々はAdamアルゴリズムの新たな拡張であるStochGradAdamを紹介し、勾配サンプリング手法を取り入れた。
StochGradAdamは、イテレーション毎の勾配更新が少ない場合でも、Adamに匹敵する、あるいは優れたパフォーマンスを実現している。
その結果,このアプローチは大規模モデルやデータセットに特に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-10-25T22:45:31Z) - Adaptive Gradient Methods at the Edge of Stability [23.246757545508444]
我々は、ディープラーニングにおけるAdamのような適応的勾配法のトレーニングダイナミクスに光を当てた。
この知見は,ディープラーニングにおける適応的勾配法に関するコミュニティの今後の理解の基盤となる。
論文 参考訳(メタデータ) (2022-07-29T05:23:47Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - On the SDEs and Scaling Rules for Adaptive Gradient Algorithms [45.007261870784475]
微分方程式(SDE)としての勾配 Descent (SGD) の適用により、研究者は連続的な最適化軌道の研究の利点を享受できるようになった。
本稿では、RMSpropとAdamのSDE近似を導出し、理論上の正確性を保証するとともに、それらの適用性を検証する。
論文 参考訳(メタデータ) (2022-05-20T16:39:03Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - CADA: Communication-Adaptive Distributed Adam [31.02472517086767]
勾配降下(SGD)は、大規模機械学習の主要な作業場としてステージに立った。
本稿では,Adam方式の通信適応型手法とみなす分散機械学習の適応勾配降下法を提案する。
論文 参考訳(メタデータ) (2020-12-31T06:52:18Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z) - On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。
解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文 参考訳(メタデータ) (2018-08-16T20:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。