論文の概要: Toward Understanding Why Adam Converges Faster Than SGD for Transformers
- arxiv url: http://arxiv.org/abs/2306.00204v1
- Date: Wed, 31 May 2023 21:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:21:37.117938
- Title: Toward Understanding Why Adam Converges Faster Than SGD for Transformers
- Title(参考訳): 変圧器のSGDよりも早くAdamが収束する理由を理解する
- Authors: Yan Pan, Yuanzhi Li
- Abstract要約: アダムのような適応アルゴリズムは、いくつかのディープラーニングアプリケーションにおいて勾配降下(SGD)よりも経験的な優位性を確立している。
本稿では,AdamがSGDよりも高速に収束する理由を,方向のシャープネスという新しい概念を用いて説明する。
座標ワイドクリッピングは、座標のごく一部だけが粗いシャープネスを持つ場合、局所的な損失低減を改善することを示す。
- 参考スコア(独自算出の注目度): 39.84662624091171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While stochastic gradient descent (SGD) is still the most popular
optimization algorithm in deep learning, adaptive algorithms such as Adam have
established empirical advantages over SGD in some deep learning applications
such as training transformers. However, it remains a question that why Adam
converges significantly faster than SGD in these scenarios. In this paper, we
propose one explanation of why Adam converges faster than SGD using a new
concept directional sharpness. We argue that the performance of optimization
algorithms is closely related to the directional sharpness of the update steps,
and show SGD has much worse directional sharpness compared to adaptive
algorithms. We further observe that only a small fraction of the coordinates
causes the bad sharpness and slow convergence of SGD, and propose to use
coordinate-wise clipping as a solution to SGD and other optimization
algorithms. We demonstrate the effect of coordinate-wise clipping on sharpness
reduction and speeding up the convergence of optimization algorithms under
various settings. We show that coordinate-wise clipping improves the local loss
reduction when only a small fraction of the coordinates has bad sharpness. We
conclude that the sharpness reduction effect of adaptive coordinate-wise
scaling is the reason for Adam's success in practice and suggest the use of
coordinate-wise clipping as a universal technique to speed up deep learning
optimization.
- Abstract(参考訳): 確率勾配勾配(SGD)は、まだディープラーニングにおいて最も一般的な最適化アルゴリズムであるが、Adamのような適応アルゴリズムは、トレーニングトランスフォーマーのようなディープラーニングアプリケーションにおいて、SGDに対して経験的な優位性を確立している。
しかし、なぜAdamはこれらのシナリオにおいてSGDよりもはるかに早く収束するのかという疑問が残る。
本稿では,adam が sgd よりも高速に収束する理由を,新しい概念 directional sharpness を用いて一考察する。
最適化アルゴリズムの性能は更新ステップの方向性のシャープネスと密接に関連しており、適応アルゴリズムと比較してSGDの方が方向のシャープネスがはるかに低いことを示す。
さらに,sgdのシャープさと収束速度の低下の原因は,座標のごく一部に過ぎず,sgdや他の最適化アルゴリズムの解として座標クリッピングを用いることを提案する。
様々な条件下での最適化アルゴリズムの収束を高速化し, シャープネス低減に対する座標ワイドクリッピングの効果を示す。
座標ワイドクリッピングは、座標のごく一部だけが粗いシャープネスを持つ場合、局所的な損失低減を改善することを示す。
我々は,適応座標スケールのシャープネス低減効果がadamの成功の理由であり,深層学習最適化を高速化するための普遍的手法としての座標クリッピングの利用を示唆する。
関連論文リスト
- How Does Adaptive Optimization Impact Local Neural Network Geometry? [32.32593743852949]
ニューラルネットワーク最適化の文脈では、この伝統的な視点は不十分である、と我々は主張する。
我々は、アダムのような適応的な手法が、より高速な収束を期待できる領域への軌道に偏っていることを示す。
論文 参考訳(メタデータ) (2022-11-04T04:05:57Z) - Adaptive Top-K in SGD for Communication-Efficient Distributed Learning [14.867068493072885]
本稿では,SGDフレームワークにおける新しい適応Top-Kを提案する。
MNIST と CIFAR-10 データセットの数値結果から,SGD における適応型 Top-K アルゴリズムは,最先端の手法に比べてはるかに優れた収束率が得られることが示された。
論文 参考訳(メタデータ) (2022-10-24T18:33:35Z) - Adaptive Step-Size Methods for Compressed SGD [15.32764898836189]
分散および分散化ネットワークにおける通信ボトルネックに対処するために,圧縮分散型グラディエント Descent (SGD) アルゴリズムが最近提案されている。
我々は、圧縮データセットの順序収束率を確立するために使用するスケーリングステップを導入する。
実世界のデータセットに対する実験結果を示す。
論文 参考訳(メタデータ) (2022-07-20T17:20:58Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Breaking (Global) Barriers in Parallel Stochastic Optimization with
Wait-Avoiding Group Averaging [34.55741812648229]
本稿では、ウェイトアビジングサブグループであるWAGMA-SGDについて述べる。
ImageNet上でResNet-50をトレーニングし、機械翻訳用のトランスフォーマー、大規模ナビゲーションのための深い強化学習を行う。
最先端の分散SGDと比較すると、WAGMA-SGDはトレーニングのスループットを大幅に改善する。
論文 参考訳(メタデータ) (2020-04-30T22:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。