Fugu-MT 論文翻訳(概要): MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients

論文の概要: MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients

arxiv url: http://arxiv.org/abs/2006.11918v4
Date: Sun, 4 Jul 2021 19:33:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-18 11:49:26.644732
Title: MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients
Title（参考訳）: MaxVA: 観測変数の最大化によるステップサイズ適応の高速化
Authors: Chen Zhu, Yu Cheng, Zhe Gan, Furong Huang, Jingjing Liu, Tom Goldstein
Abstract要約: 本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
参考スコア（独自算出の注目度）: 112.00379151834242
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adaptive gradient methods such as RMSProp and Adam use exponential moving estimate of the squared gradient to compute adaptive step sizes, achieving better convergence than SGD in face of noisy objectives. However, Adam can have undesirable convergence behaviors due to unstable or extreme adaptive learning rates. Methods such as AMSGrad and AdaBound have been proposed to stabilize the adaptive learning rates of Adam in the later stage of training, but they do not outperform Adam in some practical tasks such as training Transformers \cite{transformer}. In this paper, we propose an adaptive learning rate principle, in which the running mean of squared gradient in Adam is replaced by a weighted mean, with weights chosen to maximize the estimated variance of each coordinate. This results in a faster adaptation to the local gradient variance, which leads to more desirable empirical convergence behaviors than Adam. We prove the proposed algorithm converges under mild assumptions for nonconvex stochastic optimization problems, and demonstrate the improved efficacy of our adaptive averaging approach on machine translation, natural language understanding and large-batch pretraining of BERT. The code is available at https://github.com/zhuchen03/MaxVA.
Abstract（参考訳）: rmsprop や adam のような適応勾配法は、二乗勾配の指数的移動推定を用いて適応ステップサイズを計算し、ノイズの多い目的に対して sgd よりも収束性が良い。しかし、アダムは不安定あるいは極端な適応学習率のために、望ましくない収束行動をとることができる。 AMSGrad や AdaBound といった手法は,Adam の適応学習率を安定化させる手法として提案されているが,Transformers \cite{transformer} などの実践的なタスクでは,Adam よりも優れているわけではない。本稿では,adamにおける二乗勾配の走行平均を重み付け平均に置き換え,各座標の推定分散を最大化するために重みを選定した適応学習率原理を提案する。これにより局所勾配分散への適応が速くなり、アダムよりも望ましい経験的収束行動がもたらされる。提案アルゴリズムは,非凸確率最適化問題に対する軽度仮定の下で収束し,機械翻訳,自然言語理解,BERTの大規模事前学習における適応平均化手法の改善効果を示す。コードはhttps://github.com/zhuchen03/maxvaで入手できる。

関連論文リスト

Cumulative Learning Rate Adaptation: Revisiting Path-Based Schedules for SGD and Adam [0.7874708385247353]
適応学習速度機構は、損失ランドスケープに応じてステップサイズを動的に調整する。我々は,2017年に提案された累積経路に基づく適応方式を再検討し,観測経路長の相違に基づく学習率の調整を行った。このような適応戦略が実際的利益をもたらす時期と理由を明らかにすることを目的としている。
論文参考訳（メタデータ） (2025-08-07T13:59:47Z)
Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。非ゼロ値で2階モーメント推定を初期化する。
論文参考訳（メタデータ） (2024-12-03T04:28:14Z)
StochGradAdam: Accelerating Neural Networks Training with Stochastic Gradient Sampling [0.0]
我々はAdamアルゴリズムの新たな拡張であるStochGradAdamを紹介し、勾配サンプリング手法を取り入れた。 StochGradAdamは、イテレーション毎の勾配更新が少ない場合でも、Adamに匹敵する、あるいは優れたパフォーマンスを実現している。その結果,このアプローチは大規模モデルやデータセットに特に有効であることが示唆された。
論文参考訳（メタデータ） (2023-10-25T22:45:31Z)
Adaptive Gradient Methods at the Edge of Stability [23.246757545508444]
我々は、ディープラーニングにおけるAdamのような適応的勾配法のトレーニングダイナミクスに光を当てた。この知見は,ディープラーニングにおける適応的勾配法に関するコミュニティの今後の理解の基盤となる。
論文参考訳（メタデータ） (2022-07-29T05:23:47Z)
A Control Theoretic Framework for Adaptive Gradient Optimizers in Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。最近の例にはAdaGradとAdamがある。我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文参考訳（メタデータ） (2022-06-04T17:55:33Z)
On the SDEs and Scaling Rules for Adaptive Gradient Algorithms [45.007261870784475]
微分方程式(SDE)としての勾配 Descent (SGD) の適用により、研究者は連続的な最適化軌道の研究の利点を享受できるようになった。本稿では、RMSpropとAdamのSDE近似を導出し、理論上の正確性を保証するとともに、それらの適用性を検証する。
論文参考訳（メタデータ） (2022-05-20T16:39:03Z)
Understanding the Generalization of Adam in Learning Neural Networks with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文参考訳（メタデータ） (2021-08-25T17:58:21Z)
CADA: Communication-Adaptive Distributed Adam [31.02472517086767]
勾配降下(SGD)は、大規模機械学習の主要な作業場としてステージに立った。本稿では,Adam方式の通信適応型手法とみなす分散機械学習の適応勾配降下法を提案する。
論文参考訳（メタデータ） (2020-12-31T06:52:18Z)
Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文参考訳（メタデータ） (2020-11-24T09:28:53Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)
On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文参考訳（メタデータ） (2018-08-16T20:25:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。