論文の概要: On the Generalization of Stochastic Gradient Descent with Momentum
- arxiv url: http://arxiv.org/abs/2102.13653v1
- Date: Fri, 26 Feb 2021 18:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:57:24.748212
- Title: On the Generalization of Stochastic Gradient Descent with Momentum
- Title(参考訳): モーメントを用いた確率勾配の一般化について
- Authors: Ali Ramezani-Kebrya, Ashish Khisti, Ben Liang
- Abstract要約: まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
- 参考スコア(独自算出の注目度): 58.900860437254885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While momentum-based methods, in conjunction with stochastic gradient descent
(SGD), are widely used when training machine learning models, there is little
theoretical understanding on the generalization error of such methods. In this
work, we first show that there exists a convex loss function for which
algorithmic stability fails to establish generalization guarantees when SGD
with standard heavy-ball momentum (SGDM) is run for multiple epochs. Then, for
smooth Lipschitz loss functions, we analyze a modified momentum-based update
rule, i.e., SGD with early momentum (SGDEM), and show that it admits an
upper-bound on the generalization error. Thus, our results show that machine
learning models can be trained for multiple epochs of SGDEM with a guarantee
for generalization. Finally, for the special case of strongly convex loss
functions, we find a range of momentum such that multiple epochs of standard
SGDM, as a special form of SGDEM, also generalizes. Extending our results on
generalization, we also develop an upper-bound on the expected true risk, in
terms of the number of training steps, the size of the training set, and the
momentum parameter. Experimental evaluations verify the consistency between the
numerical results and our theoretical bounds and the effectiveness of SGDEM for
smooth Lipschitz loss functions.
- Abstract(参考訳): 運動量に基づく手法は確率勾配勾配(SGD)とともに機械学習モデルを訓練する際に広く用いられているが、そのような手法の一般化誤差に関する理論的理解はほとんどない。
本研究では,標準重球運動量(SGDM)を持つSGDを複数回実行した場合,アルゴリズム安定性が一般化保証を確立することができない凸損失関数が存在することを示す。
次に、滑らかなリプシッツ損失関数に対して、初期運動量付きSGD(英語版)(SGDEM)という修正モーメントベースの更新規則を解析し、一般化誤差に上限があることを示す。
その結果,機械学習モデルがSGDEMの複数のエポックに対して一般化を保証するように訓練できることが示された。
最後に、強い凸損失関数の特別な場合、標準SGDMの複数のエポックが、SGDEMの特別な形式として、また一般化されるような運動量の範囲を見出す。
また、一般化の結果を拡張し、トレーニングステップの数、トレーニングセットのサイズ、および運動量パラメータの観点から、期待される真のリスクを上限として開発しています。
数値解析結果と理論境界の整合性および滑らかなリプシッツ損失関数に対するSGDEMの有効性を実験的に検証した。
関連論文リスト
- Estimating Generalization Performance Along the Trajectory of Proximal SGD in Robust Regression [4.150180443030652]
本稿では,反復アルゴリズムの軌道に沿った反復の一般化誤差を正確に追跡する推定器を提案する。
結果は、ハマー回帰(英語版)、擬ハマー回帰(英語版)、および非滑らかな正則化子を持つそれらのペナル化変種(英語版)など、いくつかの例を通して説明される。
論文 参考訳(メタデータ) (2024-10-03T16:13:42Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Hausdorff Dimension, Heavy Tails, and Generalization in Neural Networks [27.54155197562196]
勾配降下(SGD)の軌跡は,emphFeller法によりよく近似できることを示す。
このような一般化の成功を測る「容量メートル法」を提案する。
論文 参考訳(メタデータ) (2020-06-16T16:57:12Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。