論文の概要: The Implicit Regularization of Dynamical Stability in Stochastic
Gradient Descent
- arxiv url: http://arxiv.org/abs/2305.17490v2
- Date: Thu, 1 Jun 2023 07:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 21:16:40.207217
- Title: The Implicit Regularization of Dynamical Stability in Stochastic
Gradient Descent
- Title(参考訳): 確率勾配Descenceにおける動的安定性の帰納規則化
- Authors: Lei Wu, Weijie J. Su
- Abstract要約: 動的安定レンズによる勾配降下(SGD)の暗黙的正則化について検討する。
2層ReLUネットワークと対角線ネットワークの一般化特性を解析する。
- 参考スコア(独自算出の注目度): 32.25490196411385
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we study the implicit regularization of stochastic gradient
descent (SGD) through the lens of {\em dynamical stability} (Wu et al., 2018).
We start by revising existing stability analyses of SGD, showing how the
Frobenius norm and trace of Hessian relate to different notions of stability.
Notably, if a global minimum is linearly stable for SGD, then the trace of
Hessian must be less than or equal to $2/\eta$, where $\eta$ denotes the
learning rate. By contrast, for gradient descent (GD), the stability imposes a
similar constraint but only on the largest eigenvalue of Hessian. We then turn
to analyze the generalization properties of these stable minima, focusing
specifically on two-layer ReLU networks and diagonal linear networks. Notably,
we establish the {\em equivalence} between these metrics of sharpness and
certain parameter norms for the two models, which allows us to show that the
stable minima of SGD provably generalize well. By contrast, the
stability-induced regularization of GD is provably too weak to ensure
satisfactory generalization. This discrepancy provides an explanation of why
SGD often generalizes better than GD. Note that the learning rate (LR) plays a
pivotal role in the strength of stability-induced regularization. As the LR
increases, the regularization effect becomes more pronounced, elucidating why
SGD with a larger LR consistently demonstrates superior generalization
capabilities. Additionally, numerical experiments are provided to support our
theoretical findings.
- Abstract(参考訳): 本稿では, 確率勾配勾配(SGD)の暗黙的正則化を, {\displaystyle {\em dynamical stability} のレンズを通して検討する(Wu et al., 2018)。
まずsgdの既存の安定性解析を改訂し、フロベニウスのノルムとヘッセンのトレースが安定性の異なる概念とどのように関係しているかを示す。
特に、大域的最小値が SGD に対して線形安定であれば、ヘッセン語のトレースは 2/\eta$ 以下でなければならず、$\eta$ は学習率を表す。
対照的に、勾配降下 (gd) では、安定性は同様の制約を課すが、ヘッセンの最大固有値にのみ依存する。
次に、これらの安定ミニマの一般化特性を解析し、2層ReLUネットワークと対角線ネットワークに焦点をあてる。
特に、これらのシャープネスの測定値と2つのモデルに対するパラメータノルムとの等価性を確立し、SGDの安定な最小値が確実に一般化可能であることを示す。
対照的に、gd の安定性によって引き起こされる正則化は、十分に一般化するには弱すぎる。
この矛盾は、SGD が GD よりもよく一般化する理由を説明する。
学習速度(LR)は安定誘導正規化の強さにおいて重要な役割を果たす。
LRが増加するにつれて正規化効果がより顕著になり、より大きなLRを持つSGDが常に優れた一般化能力を示す理由が解明される。
さらに,我々の理論的知見を裏付ける数値実験を行った。
関連論文リスト
- A Precise Characterization of SGD Stability Using Loss Surface Geometry [8.942671556572073]
Descent Gradient (SGD) は実世界の実証的な成功を証明しているが、理論的な理解は比較的限られている。
最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
論文 参考訳(メタデータ) (2024-01-22T19:46:30Z) - Risk Bounds of Accelerated SGD for Overparameterized Linear Regression [75.27846230182885]
加速度勾配降下(ASGD)は、深層学習におけるワークホースである。
既存の最適化理論は、ASGDのより高速な収束を説明することしかできないが、より優れた一般化を説明することはできない。
論文 参考訳(メタデータ) (2023-11-23T23:02:10Z) - Exact Mean Square Linear Stability Analysis for SGD [28.65663421598186]
勾配降下(SGD)の線形安定性に必要かつ十分なステップサイズを明示的条件として提示する。
SGDの安定性閾値は、全バッチ勾配ステップw.p.$-p$と1サンプル勾配ステップw.p.$p$の混合プロセスと等価であることを示す。
論文 参考訳(メタデータ) (2023-06-13T15:29:23Z) - Algorithmic Stability of Heavy-Tailed Stochastic Gradient Descent on
Least Squares [12.2950446921662]
近年の研究では、重い尾が最適化において出現し、尾の重みが一般化誤差と関連していることが示されている。
アルゴリズム安定性のレンズによる勾配降下(SGD)のテール挙動と一般化特性の新たなリンクを確立する。
我々は、合成および実際のニューラルネットワーク実験で理論を支持する。
論文 参考訳(メタデータ) (2022-06-02T19:59:48Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Stability Based Generalization Bounds for Exponential Family Langevin
Dynamics [21.26469220896393]
安定性の概念に基づくノイズの多いミニバッチ反復アルゴリズムの一般化境界について検討する。
本研究では,SGLDの相当な一般化である指数型ファミリーランゲヴィンダイナミクス(EFLD)を導入し,指数型ファミリーノイズを勾配降下で利用できるようにする。
第3に,ベルヌーイ雑音を用いた信号SGDを-1,+1で拡張するノイズシグ-SGDという,EFLDの重要な特殊なケースを考える。
論文 参考訳(メタデータ) (2022-01-09T18:15:22Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Stability of Stochastic Gradient Descent on Nonsmooth Convex Losses [52.039438701530905]
任意のリプシッツ非平滑凸損失に対して,数種類の勾配勾配降下(SGD)に対して,鋭い上下境界を与える。
我々の限界は、極端に過剰な集団リスクを伴う、微分的にプライベートな非平滑凸最適化のための新しいアルゴリズムを導出することを可能にする。
論文 参考訳(メタデータ) (2020-06-12T02:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。