論文の概要: Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization
- arxiv url: http://arxiv.org/abs/2106.11514v1
- Date: Tue, 22 Jun 2021 03:13:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 01:35:39.182255
- Title: Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization
- Title(参考訳): Momentumized Gradientsによるステップサイズ適応による最適化と一般化
- Authors: Yizhou Wang, Yue Kang, Can Qin, Yi Xu, Huan Wang, Yulun Zhang, Yun Fu
- Abstract要約: textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
- 参考スコア(独自算出の注目度): 89.66571637204012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive gradient methods, such as \textsc{Adam}, have achieved tremendous
success in machine learning. Scaling gradients by square roots of the running
averages of squared past gradients, such methods are able to attain rapid
training of modern deep neural networks. Nevertheless, they are observed to
generalize worse than stochastic gradient descent (\textsc{SGD}) and tend to be
trapped in local minima at an early stage during training. Intriguingly, we
discover that substituting the gradient in the preconditioner term with the
momentumized version in \textsc{Adam} can well solve the issues. The intuition
is that gradient with momentum contains more accurate directional information
and therefore its second moment estimation is a better choice for scaling than
raw gradient's. Thereby we propose \textsc{AdaMomentum} as a new optimizer
reaching the goal of training faster while generalizing better. We further
develop a theory to back up the improvement in optimization and generalization
and provide convergence guarantee under both convex and nonconvex settings.
Extensive experiments on various models and tasks demonstrate that
\textsc{AdaMomentum} exhibits comparable performance to \textsc{SGD} on vision
tasks, and achieves state-of-the-art results consistently on other tasks
including language processing.
- Abstract(参考訳): 適応勾配法、例えば『textsc{Adam}』は機械学習において大きな成功を収めた。
過去の2乗勾配の走行平均の平方根による勾配のスケーリングは、現代のディープニューラルネットワークの迅速な訓練を実現することができる。
それにもかかわらず、それらは確率勾配降下(\textsc{SGD})よりも悪くなることが観察され、訓練の初期段階では局所的なミニマに閉じ込められる傾向にある。
興味深いことに、プレコンディショナー項の勾配を \textsc{Adam} の運動量化バージョンに置き換えることで、この問題をうまく解決できる。
直感的には、運動量を持つ勾配はより正確な方向情報を含んでいるため、その第2モーメント推定は生の勾配よりもスケーリングに適する。
そこで我々は、より高速にトレーニングし、より一般化するという目標に到達した新しいオプティマイザとして、 \textsc{AdaMomentum}を提案する。
さらに,最適化と一般化の改善を裏付ける理論を開発し,凸設定と非凸設定の両方において収束保証を提供する。
様々なモデルやタスクに対する広範囲な実験により、 \textsc{AdaMomentum} は視覚タスクにおける \textsc{SGD} に匹敵する性能を示し、言語処理を含む他のタスクにおける最先端の結果を一貫して達成している。
関連論文リスト
- How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Penalizing Gradient Norm for Efficiently Improving Generalization in
Deep Learning [13.937644559223548]
ディープニューラルネットワーク(DNN)をうまく一般化するためのトレーニング方法が、ディープラーニングの中心的な関心事である。
最適化時の損失関数の勾配ノルムをペナルティ化することにより,モデル一般化を効果的に向上する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:03:45Z) - Step-size Adaptation Using Exponentiated Gradient Updates [21.162404996362948]
ステップサイズの適応的なチューニング手法で与えられた拡張が性能を大幅に向上させることを示す。
私たちは、アップデートのグローバルなステップサイズスケールと、各座標のゲインファクタを維持しています。
提案手法は, 特別に調整された学習率スケジュールを使わずに, 標準モデルの精度を高めることができることを示す。
論文 参考訳(メタデータ) (2022-01-31T23:17:08Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Decreasing scaling transition from adaptive gradient descent to
stochastic gradient descent [1.7874193862154875]
本稿では,適応勾配降下法から勾配勾配降下法DSTAdaへのスケーリング遷移を減少させる手法を提案する。
実験の結果,DSTAdaは高速で精度が高く,安定性と堅牢性も向上した。
論文 参考訳(メタデータ) (2021-06-12T11:28:58Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。