論文の概要: On the Generalization of Stochastic Gradient Descent with Momentum
- arxiv url: http://arxiv.org/abs/1809.04564v3
- Date: Mon, 15 Jan 2024 14:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 22:34:49.404350
- Title: On the Generalization of Stochastic Gradient Descent with Momentum
- Title(参考訳): モーメントを用いた確率勾配の一般化について
- Authors: Ali Ramezani-Kebrya, Kimon Antonakopoulos, Volkan Cevher, Ashish
Khisti, Ben Liang
- Abstract要約: 運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
- 参考スコア(独自算出の注目度): 84.54924994010703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While momentum-based accelerated variants of stochastic gradient descent
(SGD) are widely used when training machine learning models, there is little
theoretical understanding on the generalization error of such methods. In this
work, we first show that there exists a convex loss function for which the
stability gap for multiple epochs of SGD with standard heavy-ball momentum
(SGDM) becomes unbounded. Then, for smooth Lipschitz loss functions, we analyze
a modified momentum-based update rule, i.e., SGD with early momentum (SGDEM)
under a broad range of step-sizes, and show that it can train machine learning
models for multiple epochs with a guarantee for generalization. Finally, for
the special case of strongly convex loss functions, we find a range of momentum
such that multiple epochs of standard SGDM, as a special form of SGDEM, also
generalizes. Extending our results on generalization, we also develop an upper
bound on the expected true risk, in terms of the number of training steps,
sample size, and momentum. Our experimental evaluations verify the consistency
between the numerical results and our theoretical bounds. SGDEM improves the
generalization error of SGDM when training ResNet-18 on ImageNet in practical
distributed settings.
- Abstract(参考訳): 運動量に基づく確率的勾配降下(sgd)の変種は機械学習モデルの訓練に広く用いられているが、そのような方法の一般化誤差に関する理論的理解はほとんどない。
本研究では, 標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
次に,スムーズなリプシッツ損失関数に対して,SGDEM(アーリーモーメント付きSGDEM)の修正モーメントベースの更新ルールを広範囲のステップサイズで解析し,一般化の保証とともに,複数のエポックに対する機械学習モデルを訓練可能であることを示す。
最後に、強凸損失関数の特別な場合、標準SGDMの複数のエポックがSGDEMの特別な形式として一般化されるような運動量の範囲が見つかる。
一般化に関する結果を拡張することで、トレーニングステップ数、サンプルサイズ、運動量などの観点から、期待される真のリスクの上限も向上します。
数値結果と理論的境界との整合性を実験的に検証した。
SGDEMは、実用的な分散環境でImageNet上でResNet-18をトレーニングする際のSGDMの一般化誤差を改善する。
関連論文リスト
- Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Momentum via Primal Averaging: Theoretical Insights and Learning Rate
Schedules for Non-Convex Optimization [10.660480034605241]
ディープニューラルネットワークのような非トレーニングモデルのために、機械学習コミュニティ内で広く使用されている。
本研究では、SGDSPA(SGDSPA)形式のSGD等価な書き直しを利用して、運動量を持つSGDのリアプノフ解析を開発する。
論文 参考訳(メタデータ) (2020-10-01T13:46:32Z) - Hausdorff Dimension, Heavy Tails, and Generalization in Neural Networks [27.54155197562196]
勾配降下(SGD)の軌跡は,emphFeller法によりよく近似できることを示す。
このような一般化の成功を測る「容量メートル法」を提案する。
論文 参考訳(メタデータ) (2020-06-16T16:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。