論文の概要: Dual Averaging is Surprisingly Effective for Deep Learning Optimization
- arxiv url: http://arxiv.org/abs/2010.10502v1
- Date: Tue, 20 Oct 2020 17:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 06:47:22.487297
- Title: Dual Averaging is Surprisingly Effective for Deep Learning Optimization
- Title(参考訳): Dual Averagingは、ディープラーニングの最適化に驚くほど効果的である
- Authors: Samy Jelassi, Aaron Defazio
- Abstract要約: 1次最適化法はディープニューラルネットワークのトレーニングに最も広く用いられている。
間違った方法を使用すると、パフォーマンスが大幅に低下する可能性がある。
Modernized Dual Averaging (MDA)はCVではSGD+M、NLPではAdamと同等に機能する。
- 参考スコア(独自算出の注目度): 20.191456827448736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: First-order stochastic optimization methods are currently the most widely
used class of methods for training deep neural networks. However, the choice of
the optimizer has become an ad-hoc rule that can significantly affect the
performance. For instance, SGD with momentum (SGD+M) is typically used in
computer vision (CV) and Adam is used for training transformer models for
Natural Language Processing (NLP). Using the wrong method can lead to
significant performance degradation. Inspired by the dual averaging algorithm,
we propose Modernized Dual Averaging (MDA), an optimizer that is able to
perform as well as SGD+M in CV and as Adam in NLP. Our method is not adaptive
and is significantly simpler than Adam. We show that MDA induces a decaying
uncentered $L_2$-regularization compared to vanilla SGD+M and hypothesize that
this may explain why it works on NLP problems where SGD+M fails.
- Abstract(参考訳): 1次確率最適化法は現在、ディープニューラルネットワークを訓練するための最も広く使われている手法である。
しかし、オプティマイザの選択はアドホックなルールとなり、パフォーマンスに大きな影響を与えます。
例えば、運動量を持つSGD(SGD+M)は一般的にコンピュータビジョン(CV)で使用され、Adamは自然言語処理(NLP)のトランスフォーマーモデルのトレーニングに使用される。
間違ったメソッドを使用すると、パフォーマンスが大幅に低下する可能性がある。
二元平均化アルゴリズムに触発されて、cvではsgd+m、nlpではadamとして動作可能な最適化器であるmodernized dual averaging (mda)を提案する。
私たちの手法は適応性がなく、Adamよりかなりシンプルです。
我々は、MDAがバニラSGD+Mと比較して崩壊しない$L_2$-regularizationを誘導していることを示し、これがSGD+Mが失敗するNLP問題に作用する理由を説明できるかもしれないと仮説を立てた。
関連論文リスト
- MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [76.80594193051837]
メタ適応(MADA)は、複数の既知の知識を一般化し、トレーニング中に最も適した知識を動的に学習できる統合フレームワークである。
我々は、CNN、ResNet、GPT-2モデルをトレーニングするために、視覚および言語タスクに関する他の人気のあるGradsとMADAを比較した。
MADAは、他の人気のあるGradsがGPT-2トレーニングで行なっているAdamよりも3倍のバリデーションパフォーマンスが得られます。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - Robust Training of Neural Networks using Scale Invariant Architectures [70.67803417918854]
SGDとは対照的に、Adamのような適応勾配法は、現代のディープネットワークの堅牢なトレーニングを可能にする。
この一般的なアプローチは、パラメータと損失の再スケーリングに頑健であることを示す。
我々は、単にバニラSGDで訓練された場合、Adamのような適応的な手法で訓練されたBERTに匹敵する性能を達成する、SIBERTと呼ばれるスケール不変バージョンのBERTを設計する。
論文 参考訳(メタデータ) (2022-02-02T11:58:56Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - Mixing ADAM and SGD: a Combined Optimization Method [0.9569316316728905]
我々はMAS (Mixing ADAM and SGD) と呼ばれる新しいタイプの最適化手法を提案する。
SGDやADAMを改善するのではなく、両方の利点を最大限に活用するのです。
我々は様々なCNNを用いて画像とテキスト文書の分類実験を行い、提案したMASが単一のSGDやADAMよりも優れた性能を示すことを示した。
論文 参考訳(メタデータ) (2020-11-16T15:48:38Z) - POMO: Policy Optimization with Multiple Optima for Reinforcement
Learning [8.819672165548477]
本稿では,マルチプルオプティマス(POMO)を用いたポリシー最適化について紹介する。
POMOは、幅広いCO問題に適用可能であり、CO溶液の表現における対称性を利用するように設計されている。
我々は,旅行セールスマン(TSP),キャパシタンドカールーティング(CVRP),0-1knapsack(KP)の3つの一般的なNPハード問題を解くことで,POMOの有効性を実証した。
論文 参考訳(メタデータ) (2020-10-30T00:57:50Z) - Obtaining Adjustable Regularization for Free via Iterate Averaging [43.75491612671571]
最適化のための正規化は、機械学習の過度な適合を避けるための重要なテクニックである。
我々は、任意の強凸かつ滑らかな対象関数上のSGDの繰り返しを正規化された関数に変換する平均化スキームを確立する。
提案手法は,高速化および事前条件最適化手法にも利用できる。
論文 参考訳(メタデータ) (2020-08-15T15:28:05Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z) - A Dynamic Sampling Adaptive-SGD Method for Machine Learning [8.173034693197351]
本稿では,勾配近似の計算に使用されるバッチサイズと,その方向に移動するステップサイズを適応的に制御する手法を提案する。
提案手法は局所曲率情報を利用して探索方向を高い確率で降下方向とする。
数値実験により、この手法は最適な学習率を選択することができ、ロジスティック回帰とDNNを訓練するための微調整されたSGDと好適に比較できることが示された。
論文 参考訳(メタデータ) (2019-12-31T15:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。