論文の概要: Dual Averaging is Surprisingly Effective for Deep Learning Optimization
- arxiv url: http://arxiv.org/abs/2010.10502v1
- Date: Tue, 20 Oct 2020 17:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 06:47:22.487297
- Title: Dual Averaging is Surprisingly Effective for Deep Learning Optimization
- Title(参考訳): Dual Averagingは、ディープラーニングの最適化に驚くほど効果的である
- Authors: Samy Jelassi, Aaron Defazio
- Abstract要約: 1次最適化法はディープニューラルネットワークのトレーニングに最も広く用いられている。
間違った方法を使用すると、パフォーマンスが大幅に低下する可能性がある。
Modernized Dual Averaging (MDA)はCVではSGD+M、NLPではAdamと同等に機能する。
- 参考スコア(独自算出の注目度): 20.191456827448736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: First-order stochastic optimization methods are currently the most widely
used class of methods for training deep neural networks. However, the choice of
the optimizer has become an ad-hoc rule that can significantly affect the
performance. For instance, SGD with momentum (SGD+M) is typically used in
computer vision (CV) and Adam is used for training transformer models for
Natural Language Processing (NLP). Using the wrong method can lead to
significant performance degradation. Inspired by the dual averaging algorithm,
we propose Modernized Dual Averaging (MDA), an optimizer that is able to
perform as well as SGD+M in CV and as Adam in NLP. Our method is not adaptive
and is significantly simpler than Adam. We show that MDA induces a decaying
uncentered $L_2$-regularization compared to vanilla SGD+M and hypothesize that
this may explain why it works on NLP problems where SGD+M fails.
- Abstract(参考訳): 1次確率最適化法は現在、ディープニューラルネットワークを訓練するための最も広く使われている手法である。
しかし、オプティマイザの選択はアドホックなルールとなり、パフォーマンスに大きな影響を与えます。
例えば、運動量を持つSGD(SGD+M)は一般的にコンピュータビジョン(CV)で使用され、Adamは自然言語処理(NLP)のトランスフォーマーモデルのトレーニングに使用される。
間違ったメソッドを使用すると、パフォーマンスが大幅に低下する可能性がある。
二元平均化アルゴリズムに触発されて、cvではsgd+m、nlpではadamとして動作可能な最適化器であるmodernized dual averaging (mda)を提案する。
私たちの手法は適応性がなく、Adamよりかなりシンプルです。
我々は、MDAがバニラSGD+Mと比較して崩壊しない$L_2$-regularizationを誘導していることを示し、これがSGD+Mが失敗するNLP問題に作用する理由を説明できるかもしれないと仮説を立てた。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Non-convergence of Adam and other adaptive stochastic gradient descent optimization methods for non-vanishing learning rates [3.6185342807265415]
ディープラーニングアルゴリズムは多くの人工知能(AI)システムにおいて重要な要素である。
ディープラーニングアルゴリズムは通常、勾配降下(SGD)最適化法によって訓練されたディープニューラルネットワークのクラスで構成されている。
論文 参考訳(メタデータ) (2024-07-11T00:10:35Z) - Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
SGD,Adafactor,Adam,Lionなどの最適化アルゴリズムを自己回帰言語モデリングの文脈で比較する。
以上の結果から,SGDを除いて,これらのアルゴリズムは最適性能の両立が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:11:40Z) - Improving the Adaptive Moment Estimation (ADAM) stochastic optimizer through an Implicit-Explicit (IMEX) time-stepping approach [1.2233362977312945]
古典的アダムアルゴリズムは、基礎となるODEの1次暗黙的明示的(IMEX)離散化である。
我々は、高階IMEX法を用いてODEを解くAdamスキームの新たな拡張を提案する。
いくつかの回帰問題と分類問題において,従来のAdamよりも優れた性能を示すニューラルネットワークトレーニングのための新しい最適化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-03-20T16:08:27Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。