論文の概要: When and Why Momentum Accelerates SGD:An Empirical Study
- arxiv url: http://arxiv.org/abs/2306.09000v1
- Date: Thu, 15 Jun 2023 09:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 15:24:15.832204
- Title: When and Why Momentum Accelerates SGD:An Empirical Study
- Title(参考訳): モーメントムがSGDを加速する時期と理由:実証的研究
- Authors: Jingwen Fu, Bohan Wang, Huishuai Zhang, Zhizheng Zhang, Wei Chen,
Nanning Zheng
- Abstract要約: 本研究では,運動量を有する勾配降下(SGD)の性能について検討する。
運動量加速度は,更新方向に沿った方向ヘッセンの急激な跳躍を示す強調シャープニングと密接に関連していることがわかった。
モーメントは、急激な研削の発生を防止または延期することにより、SGDMの性能を向上させる。
- 参考スコア(独自算出の注目度): 76.2666927020119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Momentum has become a crucial component in deep learning optimizers,
necessitating a comprehensive understanding of when and why it accelerates
stochastic gradient descent (SGD). To address the question of ''when'', we
establish a meaningful comparison framework that examines the performance of
SGD with Momentum (SGDM) under the \emph{effective learning rates} $\eta_{ef}$,
a notion unifying the influence of momentum coefficient $\mu$ and batch size
$b$ over learning rate $\eta$. In the comparison of SGDM and SGD with the same
effective learning rate and the same batch size, we observe a consistent
pattern: when $\eta_{ef}$ is small, SGDM and SGD experience almost the same
empirical training losses; when $\eta_{ef}$ surpasses a certain threshold, SGDM
begins to perform better than SGD. Furthermore, we observe that the advantage
of SGDM over SGD becomes more pronounced with a larger batch size. For the
question of ``why'', we find that the momentum acceleration is closely related
to \emph{abrupt sharpening} which is to describe a sudden jump of the
directional Hessian along the update direction. Specifically, the misalignment
between SGD and SGDM happens at the same moment that SGD experiences abrupt
sharpening and converges slower. Momentum improves the performance of SGDM by
preventing or deferring the occurrence of abrupt sharpening. Together, this
study unveils the interplay between momentum, learning rates, and batch sizes,
thus improving our understanding of momentum acceleration.
- Abstract(参考訳): モーメントはディープラーニングオプティマイザの重要な要素となり、いつ、なぜそれが確率的勾配降下(sgd)を加速するのかを包括的に理解する必要がある。
when' の問題に対処するために、sgd と運動量(sgdm)のパフォーマンスを \emph{ effective learning rate} $\eta_{ef}$ で検証する有意義な比較フレームワークを構築し、運動量係数 $\mu$ とバッチサイズ $b$ over learning rate $\eta$ の影響を統一する概念である。
SGDMとSGDを、同じ有効学習率と同じバッチサイズで比較すると、$\eta_{ef}$が小さく、SGDMとSGDがほぼ同じ経験を持つ場合、$\eta_{ef}$が一定の閾値を超えた場合、SGDMはSGDよりも優れたパフォーマンスを示し始める。
さらに,SGDに対するSGDMの利点は,より大きなバッチサイズでより顕著になることが観察された。
why'' という問題に対して、運動量加速度は更新方向に沿った方向ヘッシアンの突然のジャンプを記述するために \emph{abrupt sharpening} と密接に関連していることが分かる。
具体的には、SGDとSGDMの相違は、SGDが急激な硬化と収束を経験すると同時に起こる。
モーメントは、急激な研削の発生を防止または延期することにより、SGDMの性能を向上させる。
本研究では,運動量,学習速度,バッチサイズ間の相互作用を明らかにし,運動量加速度の理解を深める。
関連論文リスト
- Why (and When) does Local SGD Generalize Better than SGD? [46.993699881100454]
ローカルSGDは、大規模トレーニングのための通信効率のよいSGDの亜種である。
本稿では,微分方程式(SDE)近似に基づいて局所SGDがより一般化する理由(およびいつ)を理解することを目的とする。
論文 参考訳(メタデータ) (2023-03-02T12:56:52Z) - Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文 参考訳(メタデータ) (2021-05-05T13:54:26Z) - DecentLaM: Decentralized Momentum SGD for Large-batch Deep Training [30.574484395380043]
分散モーメントSGD(DmSGD)は並列モーメントSGDよりも通信効率が高く、すべてのコンピューティングノードでグローバル平均が発生します。
DeLacent大バッチモーメント性能モデルを提案します。
論文 参考訳(メタデータ) (2021-04-24T16:21:01Z) - Empirically explaining SGD from a line search perspective [21.35522589789314]
更新ステップ方向のラインに沿った全バッチ損失が極めてパラボリックであることを示す。
また、SGDが常にフルバッチロスでほぼ正確なライン検索を行う学習率があることも示しています。
論文 参考訳(メタデータ) (2021-03-31T14:54:22Z) - Double Momentum SGD for Federated Learning [94.58442574293021]
我々は、フェデレート学習におけるモデル性能を改善するために、DOMOと呼ばれる新しいSGD変種を提案する。
1つのモメンタバッファはサーバ更新方向を追跡し、もう1つはローカル更新方向を追跡します。
本稿では,サーバとローカルモーメントSGDを協調する新しいサーバモーメント融合手法を提案する。
論文 参考訳(メタデータ) (2021-02-08T02:47:24Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Momentum Improves Normalized SGD [51.27183254738711]
モーメントを追加することで、目的に対する大きなバッチサイズの必要性を確実に排除できることを示す。
本稿では,ResNet-50 や BERT といった大規模タスクの事前学習において,提案手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-02-09T07:00:54Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。