論文の概要: Label Noise SGD Provably Prefers Flat Global Minimizers
- arxiv url: http://arxiv.org/abs/2106.06530v1
- Date: Fri, 11 Jun 2021 17:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:20:45.278755
- Title: Label Noise SGD Provably Prefers Flat Global Minimizers
- Title(参考訳): ラベルノイズsgdは平坦な大域的最小値を好む
- Authors: Alex Damian, Tengyu Ma, Jason Lee
- Abstract要約: 過度パラメータ化モデルでは、勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。
ラベルノイズを持つSGDが正規化損失$L(theta) +lambda R(theta)$の定常点に収束することを示す。
解析の結果,線形スケーリング法則を超越した大規模学習率の正規化効果が明らかとなった。
- 参考スコア(独自算出の注目度): 48.883469271546076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In overparametrized models, the noise in stochastic gradient descent (SGD)
implicitly regularizes the optimization trajectory and determines which local
minimum SGD converges to. Motivated by empirical studies that demonstrate that
training with noisy labels improves generalization, we study the implicit
regularization effect of SGD with label noise. We show that SGD with label
noise converges to a stationary point of a regularized loss $L(\theta) +\lambda
R(\theta)$, where $L(\theta)$ is the training loss, $\lambda$ is an effective
regularization parameter depending on the step size, strength of the label
noise, and the batch size, and $R(\theta)$ is an explicit regularizer that
penalizes sharp minimizers. Our analysis uncovers an additional regularization
effect of large learning rates beyond the linear scaling rule that penalizes
large eigenvalues of the Hessian more than small ones. We also prove extensions
to classification with general loss functions, SGD with momentum, and SGD with
general noise covariance, significantly strengthening the prior work of Blanc
et al. to global convergence and large learning rates and of HaoChen et al. to
general models.
- Abstract(参考訳): 過度パラメータ化モデルでは、確率勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。
ノイズラベルによるトレーニングが一般化を改善することを示す実証的研究により,ラベルノイズを伴うSGDの暗黙的な正規化効果について検討した。
ラベルノイズを持つsgd は正規化損失の定常点 $l(\theta) +\lambda r(\theta)$ に収束し、ここで $l(\theta)$ はトレーニング損失、$\lambda$ はステップサイズ、ラベルノイズの強度、バッチサイズに依存する効果的な正規化パラメータであり、$r(\theta)$ は鋭い最小化をペナライズする明示的な正規化子である。
本解析は,ヘシアンの大きな固有値が小さい値よりもペナルティ化される線形スケーリング則を超えて,大きな学習率による追加の正規化効果を明らかにする。
また,一般損失関数付き分類,運動量付きsgd,一般騒音共分散型sgdの拡張を証明し,ブラン等以前の作業を大幅に強化した。
グローバル収束と大きな学習率、およびhaochenらへの貢献。
一般的なモデルです
関連論文リスト
- On the Trajectories of SGD Without Replacement [0.0]
本稿では,グラディエントDescence(SGD)の暗黙的正則化効果について検討する。
我々は、大規模なニューラルネットワークを最適化するために一般的に使用される変種である、置換のないSGDの場合を考える。
論文 参考訳(メタデータ) (2023-12-26T18:06:48Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - Why is parameter averaging beneficial in SGD? An objective smoothing perspective [13.863368438870562]
勾配降下(SGD)とその暗黙バイアスは、しばしばミニマの鋭さによって特徴づけられる。
Izmailov et alで実証的に観察された一般用平均SGDアルゴリズムについて検討した。
本研究では,SGDの平均値が局所的な局所最小値を回避するスムーズな目的を効率的に最適化できることを証明した。
論文 参考訳(メタデータ) (2023-02-18T16:29:06Z) - When does SGD favor flat minima? A quantitative characterization via
linear stability [7.252584656056866]
勾配降下(SGD)は平らなミニマを好む。
線形ネットワークとランダム特徴モデル(RFM)に対するSGDノイズの有効保持特性
論文 参考訳(メタデータ) (2022-07-06T12:40:09Z) - Optimal Online Generalized Linear Regression with Stochastic Noise and
Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。
ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。
本稿では,FTRLに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:26Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - SGD Generalizes Better Than GD (And Regularization Doesn't Help) [39.588906680621825]
我々は、勾配勾配(SGD)の一般化性能と全バッチ勾配(GD)の分離結果を与える。
同じステップ数で、GD はオーバーフィットし、$Omega(1)$ generalization error で解を出力することを示した。
本稿では,GDによる経験的リスクの最小化が,基本的には上記の結果を変えるものではないことを論じ,安定性,暗黙バイアス,一般化における学習アルゴリズムの役割を再考する。
論文 参考訳(メタデータ) (2021-02-01T19:18:40Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Improved generalization by noise enhancement [5.33024001730262]
勾配降下(SGD)の騒音は一般化と密接に関連している。
騒音強調による目標達成手法」を提案する。
その結果,騒音強調による大規模バッチトレーニングは,小バッチトレーニングに比べ,より汎用性が高いことがわかった。
論文 参考訳(メタデータ) (2020-09-28T06:29:23Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。