論文の概要: When does SGD favor flat minima? A quantitative characterization via
linear stability
- arxiv url: http://arxiv.org/abs/2207.02628v1
- Date: Wed, 6 Jul 2022 12:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 12:48:15.191266
- Title: When does SGD favor flat minima? A quantitative characterization via
linear stability
- Title(参考訳): SGDはいつフラット・ミニマを好むのか?
線形安定性による定量的評価
- Authors: Lei Wu, Mingze Wang, Weijie Su
- Abstract要約: 勾配降下(SGD)は平らなミニマを好む。
線形ネットワークとランダム特徴モデル(RFM)に対するSGDノイズの有効保持特性
- 参考スコア(独自算出の注目度): 7.252584656056866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The observation that stochastic gradient descent (SGD) favors flat minima has
played a fundamental role in understanding implicit regularization of SGD and
guiding the tuning of hyperparameters. In this paper, we provide a quantitative
explanation of this striking phenomenon by relating the particular noise
structure of SGD to its \emph{linear stability} (Wu et al., 2018).
Specifically, we consider training over-parameterized models with square loss.
We prove that if a global minimum $\theta^*$ is linearly stable for SGD, then
it must satisfy $\|H(\theta^*)\|_F\leq O(\sqrt{B}/\eta)$, where
$\|H(\theta^*)\|_F, B,\eta$ denote the Frobenius norm of Hessian at $\theta^*$,
batch size, and learning rate, respectively. Otherwise, SGD will escape from
that minimum \emph{exponentially} fast. Hence, for minima accessible to SGD,
the flatness -- as measured by the Frobenius norm of the Hessian -- is bounded
independently of the model size and sample size. The key to obtaining these
results is exploiting the particular geometry awareness of SGD noise: 1) the
noise magnitude is proportional to loss value; 2) the noise directions
concentrate in the sharp directions of local landscape. This property of SGD
noise provably holds for linear networks and random feature models (RFMs) and
is empirically verified for nonlinear networks. Moreover, the validity and
practical relevance of our theoretical findings are justified by extensive
numerical experiments.
- Abstract(参考訳): 確率勾配降下(SGD)が平坦な最小値を好むという観察は、SGDの暗黙の正規化を理解し、ハイパーパラメータのチューニングを導く上で、基本的な役割を担っている。
本稿では,SGDの特定の雑音構造と,その安定性を関連付けることで,この衝撃現象を定量的に説明する(Wu et al., 2018)。
具体的には,2乗損失を伴う過パラメータモデルのトレーニングを検討する。
ここで、$\|h(\theta^*)\|_f\leq o(\sqrt{b}/\eta)$, ここで、$\|h(\theta^*)\|_f, b,\eta$はそれぞれ$\theta^*$, batch size, learning rateでヘッセンのフロベニウスノルムを表す。
そうでなければ、SGDは最小限の \emph{exponentially} から脱落する。
したがって、SGDに到達可能なミニマに対して、ヘッセンのフロベニウスノルムによって測られる平坦性はモデルサイズとサンプルサイズとは独立に有界である。
これらの結果を得るための鍵は、SGDノイズの特定の幾何学的認識を活用することである。
1) 雑音の大きさは損失値に比例する。
2)騒音方向は地域景観の鋭い方向に集中する。
このsgdノイズの特性は線形ネットワークとランダム特徴モデル (rfms) で実現可能であり、非線形ネットワークで実証的に検証される。
さらに, 広範な数値実験により, 本理論の妥当性と妥当性を検証した。
関連論文リスト
- Exact Mean Square Linear Stability Analysis for SGD [28.65663421598186]
勾配降下(SGD)の線形安定性に必要かつ十分なステップサイズを明示的条件として提示する。
SGDの安定性閾値は、全バッチ勾配ステップw.p.$-p$と1サンプル勾配ステップw.p.$p$の混合プロセスと等価であることを示す。
論文 参考訳(メタデータ) (2023-06-13T15:29:23Z) - Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。
我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。
他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文 参考訳(メタデータ) (2021-10-21T19:22:14Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Label Noise SGD Provably Prefers Flat Global Minimizers [48.883469271546076]
過度パラメータ化モデルでは、勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。
ラベルノイズを持つSGDが正規化損失$L(theta) +lambda R(theta)$の定常点に収束することを示す。
解析の結果,線形スケーリング法則を超越した大規模学習率の正規化効果が明らかとなった。
論文 参考訳(メタデータ) (2021-06-11T17:59:07Z) - The Sobolev Regularization Effect of Stochastic Gradient Descent [8.193914488276468]
平坦なミニマはモデル関数の勾配を正則化するので、平坦なミニマの優れた性能が説明できる。
また、勾配雑音の高次モーメントについても検討し、グローバル・ミニマ周辺でのSGDの線形解析により、グラディエント・ダセント(SGD)がこれらのモーメントに制約を課す傾向があることを示す。
論文 参考訳(メタデータ) (2021-05-27T21:49:21Z) - Noisy Truncated SGD: Optimization and Generalization [27.33458360279836]
近年のsgdに関する実証研究により、エポックのほとんどの勾配成分は極めて小さいことが示されている。
このような研究に触発され、雑音SGD(NT-SGD)の特性を厳格に研究する。
我々は,NT-SGDがサドルポイントから確実に脱出でき,従来と比べノイズの少ないことを証明した。
論文 参考訳(メタデータ) (2021-02-26T22:39:41Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。