論文の概要: Eliminating Sharp Minima from SGD with Truncated Heavy-tailed Noise
- arxiv url: http://arxiv.org/abs/2102.04297v1
- Date: Mon, 8 Feb 2021 16:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 03:15:08.769450
- Title: Eliminating Sharp Minima from SGD with Truncated Heavy-tailed Noise
- Title(参考訳): SGDの超大型ノイズによるシャープミニマ除去
- Authors: Xingyu Wang, Sewoong Oh, Chang-Han Rhee
- Abstract要約: 多くのディープラーニングタスクにおいて,重み付き勾配雑音の証拠が報告された。
切断したSGDは訓練軌道から局所的に鋭いミニマを効果的に除去できることを示す。
- 参考スコア(独自算出の注目度): 39.27123042800951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The empirical success of deep learning is often attributed to SGD's
mysterious ability to avoid sharp local minima in the loss landscape, which is
well known to lead to poor generalization. Recently, empirical evidence of
heavy-tailed gradient noise was reported in many deep learning tasks; under the
presence of such heavy-tailed noise, it can be shown that SGD can escape sharp
local minima, providing a partial solution to the mystery. In this work, we
analyze a popular variant of SGD where gradients are truncated above a fixed
threshold. We show that it achieves a stronger notion of avoiding sharp minima;
it can effectively eliminate sharp local minima entirely from its training
trajectory. We characterize the dynamics of truncated SGD driven by
heavy-tailed noises. First, we show that the truncation threshold and width of
the attraction field dictate the order of the first exit time from the
associated local minimum. Moreover, when the objective function satisfies
appropriate structural conditions, we prove that as the learning rate decreases
the dynamics of the heavy-tailed SGD closely resemble that of a special
continuous-time Markov chain which never visits any sharp minima. We verify our
theoretical results with numerical experiments and discuss the implications on
the generalizability of SGD in deep learning.
- Abstract(参考訳): 深層学習の実証的な成功は、しばしばSGDが失われた風景の急激な局所的なミニマを避けるという神秘的な能力に起因している。
近年,多くの深層学習課題において,重み付き勾配雑音の実証的証拠が報告されているが,そのような重み付き雑音の存在下,SGDは鋭い局所最小値から逃れることができ,謎の部分解となることが示されている。
本研究では,固定しきい値より勾配が小さくなるSGDの一般的な変種を解析する。
鋭い極小を回避できるというより強い概念を実現し、訓練軌道から鋭い局所極小を効果的に排除できることを示した。
重鎖ノイズを駆動する切り裂かれたSGDのダイナミクスを特徴づける。
まず、アトラクションフィールドの切り捨てしきい値と幅が、関連するローカル最小値から最初の終了時間の順序を決定することを示します。
さらに, 目的関数が適切な構造条件を満たす場合, 学習速度が重鎖sgdのダイナミクスを減少させることにより, 鋭いミニマムを決して訪れない特殊な連続時間マルコフ連鎖によく似ていることを証明した。
数値実験により理論結果を検証し,深層学習におけるSGDの一般化可能性について考察する。
関連論文リスト
- Simplicity Bias via Global Convergence of Sharpness Minimization [43.658859631741024]
ラベルノイズSGDは、2層ネットワークにおける損失ゼロのモデル多様体のシャープネスを常に最小化することを示す。
また、ゼロ損失多様体上の近似定常点における損失のヘッセンのトレースの新たな性質も見いだす。
論文 参考訳(メタデータ) (2024-10-21T18:10:37Z) - Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - Low-Precision Stochastic Gradient Langevin Dynamics [70.69923368584588]
本稿では,低精度のグラジエントランゲヴィンダイナミクスを初めて研究し,性能を犠牲にすることなくコストを大幅に削減できることを示した。
本研究では,各更新ステップの分散を保存したSGLDの新しい量子化関数を開発する。
我々は,低精度のSGLDが,様々なディープラーニングタスクにおいて8ビットしか持たない完全精度のSGLDに匹敵する性能を実現することを実証した。
論文 参考訳(メタデータ) (2022-06-20T17:25:41Z) - SGD with a Constant Large Learning Rate Can Converge to Local Maxima [4.014524824655106]
我々は、勾配降下が奇妙で望ましくない振る舞いを示す可能性があることを示す最悪の最適化問題を構築する。
具体的には、SGDが局所的な最大値に収束するようにランドスケープとデータ分布を構築する。
本結果は,ミニバッチサンプリング,離散時間更新ルール,現実的な景観を同時に解析することの重要性を強調した。
論文 参考訳(メタデータ) (2021-07-25T10:12:18Z) - Label Noise SGD Provably Prefers Flat Global Minimizers [48.883469271546076]
過度パラメータ化モデルでは、勾配降下(SGD)のノイズは最適化軌道を暗黙的に規則化し、どの局所最小SGDが収束するかを決定する。
ラベルノイズを持つSGDが正規化損失$L(theta) +lambda R(theta)$の定常点に収束することを示す。
解析の結果,線形スケーリング法則を超越した大規模学習率の正規化効果が明らかとなった。
論文 参考訳(メタデータ) (2021-06-11T17:59:07Z) - Noisy Truncated SGD: Optimization and Generalization [27.33458360279836]
近年のsgdに関する実証研究により、エポックのほとんどの勾配成分は極めて小さいことが示されている。
このような研究に触発され、雑音SGD(NT-SGD)の特性を厳格に研究する。
我々は,NT-SGDがサドルポイントから確実に脱出でき,従来と比べノイズの少ないことを証明した。
論文 参考訳(メタデータ) (2021-02-26T22:39:41Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。