論文の概要: Implicit regularization in Heavy-ball momentum accelerated stochastic
gradient descent
- arxiv url: http://arxiv.org/abs/2302.00849v1
- Date: Thu, 2 Feb 2023 03:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 15:32:10.951926
- Title: Implicit regularization in Heavy-ball momentum accelerated stochastic
gradient descent
- Title(参考訳): 重球運動量加速確率勾配降下における暗黙的正則化
- Authors: Avrajit Ghosh, He Lyu, Xitong Zhang, Rongrong Wang
- Abstract要約: 離散的なH.B運動量更新(GD+M)は、変化した損失によって誘導される連続的な軌跡に従うことを示す。
この(GD+M)の暗黙正則化器は、(GD)のそれよりも$(frac1+beta1-beta)$の係数で強い。
我々は解析を運動量を持つ降下(SGD+M)のバージョンに拡張し、勾配の更新(SGD+M)の連続的な軌跡をポイントワイズで特徴づける。
- 参考スコア(独自算出の注目度): 9.191350169972262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is well known that the finite step-size ($h$) in Gradient Descent (GD)
implicitly regularizes solutions to flatter minima. A natural question to ask
is "Does the momentum parameter $\beta$ play a role in implicit regularization
in Heavy-ball (H.B) momentum accelerated gradient descent (GD+M)?". To answer
this question, first, we show that the discrete H.B momentum update (GD+M)
follows a continuous trajectory induced by a modified loss, which consists of
an original loss and an implicit regularizer. Then, we show that this implicit
regularizer for (GD+M) is stronger than that of (GD) by factor of
$(\frac{1+\beta}{1-\beta})$, thus explaining why (GD+M) shows better
generalization performance and higher test accuracy than (GD). Furthermore, we
extend our analysis to the stochastic version of gradient descent with momentum
(SGD+M) and characterize the continuous trajectory of the update of (SGD+M) in
a pointwise sense. We explore the implicit regularization in (SGD+M) and (GD+M)
through a series of experiments validating our theory.
- Abstract(参考訳): 勾配降下 (gd) における有限ステップサイズ (h$) は、より平坦な極小への解を暗黙的に正則化することが知られている。
自然な疑問は、「重いボール(H.B)の運動量加速勾配降下(GD+M)において、運動量パラメータ$\beta$は暗黙の正則化において役割を果たすか」である。
この質問に答えるために、まず、離散的なH.B運動量更新(GD+M)が、元の損失と暗黙の正則化からなる修正損失によって誘導される連続的な軌跡に従うことを示す。
すると、(GD+M)のこの暗黙正則化器は、(GD)のそれよりも$(\frac{1+\beta}{1-\beta})$より強く、なぜ(GD+M)が(GD)よりも優れた一般化性能とテスト精度を示すのかを説明する。
さらに,この解析を運動量を伴う勾配降下の確率的バージョン(SGD+M)に拡張し,(SGD+M)の更新の連続的な軌跡をポイントワイズで特徴づける。
我々は、我々の理論を検証する一連の実験を通して、(SGD+M)と(GD+M)の暗黙正則化を探求する。
関連論文リスト
- Improving the Convergence Rates of Forward Gradient Descent with Repeated Sampling [5.448070998907116]
前向き勾配降下(FGD)は、生物学的により妥当な勾配降下の代替として提案されている。
本稿では、各トレーニングサンプルに基づいて、$ell$FGDステップを計算することにより、この亜最適係数が$d/(ell wedge d)$となることを示す。
また、繰り返しサンプリングしたFGDは入力分布の低次元構造に適応できることを示す。
論文 参考訳(メタデータ) (2024-11-26T16:28:16Z) - Faster Convergence of Stochastic Accelerated Gradient Descent under Interpolation [51.248784084461334]
我々はNesterov加速度アンダーホ条件の一般化版に対する新しい収束率を証明した。
本分析により, 従来の研究に比べて, 強い成長定数への依存度を$$$から$sqrt$に下げることができた。
論文 参考訳(メタデータ) (2024-04-03T00:41:19Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - The Implicit Regularization of Momentum Gradient Descent with Early
Stopping [0.0]
運動量勾配降下 (MGD) の暗黙的な正則化を, 明示的な$ell$-regularization (ridge) と比較することにより, 早期停止を特徴付ける。
特に、MGFとリッジの相対ベイズリスクは、最適チューニングの下で1から1.035である。
論文 参考訳(メタデータ) (2022-01-14T11:50:54Z) - On the Hyperparameters in Stochastic Gradient Descent with Momentum [6.396288020763144]
本稿では,運動量を伴う勾配降下理論(SGD)について述べる。
以上の結果から,SGD の正の線形速度は,SGD が0 から0 に増加するにつれて変化し,SGD の線形速度が変化することを示す。
最後に、この速度下での代理運動量と運動量との本質的な違いは示さない。
論文 参考訳(メタデータ) (2021-08-09T11:25:03Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - SGD Generalizes Better Than GD (And Regularization Doesn't Help) [39.588906680621825]
我々は、勾配勾配(SGD)の一般化性能と全バッチ勾配(GD)の分離結果を与える。
同じステップ数で、GD はオーバーフィットし、$Omega(1)$ generalization error で解を出力することを示した。
本稿では,GDによる経験的リスクの最小化が,基本的には上記の結果を変えるものではないことを論じ,安定性,暗黙バイアス,一般化における学習アルゴリズムの役割を再考する。
論文 参考訳(メタデータ) (2021-02-01T19:18:40Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - A New Accelerated Stochastic Gradient Method with Momentum [4.967897656554012]
運動量(Sgdm)による勾配降下は、繰り返し時間とともに指数関数的に減衰する重みを使い、運動量項を生成する。
本研究では,指数関数的減衰重みと逆比例分解重みの両方が領域に最適化されるパラメータの移動方向のばらつきを制限することができる理論収束特性解析を行う。
論文 参考訳(メタデータ) (2020-05-31T03:04:32Z) - Momentum Improves Normalized SGD [51.27183254738711]
モーメントを追加することで、目的に対する大きなバッチサイズの必要性を確実に排除できることを示す。
本稿では,ResNet-50 や BERT といった大規模タスクの事前学習において,提案手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-02-09T07:00:54Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。