論文の概要: Dynamic of Stochastic Gradient Descent with State-Dependent Noise
- arxiv url: http://arxiv.org/abs/2006.13719v3
- Date: Mon, 12 Oct 2020 11:40:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 09:22:23.756814
- Title: Dynamic of Stochastic Gradient Descent with State-Dependent Noise
- Title(参考訳): 状態依存雑音を伴う確率勾配の動的挙動
- Authors: Qi Meng, Shiqi Gong, Wei Chen, Zhi-Ming Ma, Tie-Yan Liu
- Abstract要約: 勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
- 参考スコア(独自算出の注目度): 84.64013284862733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) and its variants are mainstream methods to
train deep neural networks. Since neural networks are non-convex, more and more
works study the dynamic behavior of SGD and the impact to its generalization,
especially the escaping efficiency from local minima. However, these works take
the over-simplified assumption that the covariance of the noise in SGD is (or
can be upper bounded by) constant, although it is actually state-dependent. In
this work, we conduct a formal study on the dynamic behavior of SGD with
state-dependent noise. Specifically, we show that the covariance of the noise
of SGD in the local region of the local minima is a quadratic function of the
state. Thus, we propose a novel power-law dynamic with state-dependent
diffusion to approximate the dynamic of SGD. We prove that, power-law dynamic
can escape from sharp minima exponentially faster than flat minima, while the
previous dynamics can only escape sharp minima polynomially faster than flat
minima. Our experiments well verified our theoretical results. Inspired by our
theory, we propose to add additional state-dependent noise into (large-batch)
SGD to further improve its generalization ability. Experiments verify that our
method is effective.
- Abstract(参考訳): 確率勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練する主要な方法である。
ニューラルネットワークは凸ではないため、sgdの動的挙動とその一般化、特に局所ミニマからの脱出効率への影響の研究がますます増えている。
しかし、これらの研究は、SGDのノイズの共分散が(あるいは上界で上界)定数であるという過度に単純化された仮定を取るが、実際には状態依存である。
本研究では、状態依存雑音を伴うSGDの動的挙動に関する公式な研究を行う。
具体的には、局所最小値の局所領域におけるSGDのノイズの共分散が状態の二次関数であることを示す。
そこで本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
パワーローダイナミクスは、フラットミニマよりも指数関数的に高速なシャープミニマから逃れることができるが、従来のダイナミクスはフラットミニマより多項式的に高速なシャープミニマから逃れることができる。
我々の実験は理論の結果をよく検証した。
我々の理論に触発されて、一般化能力をさらに向上するために、(大規模バッチ)SGDに状態依存ノイズを追加することを提案する。
実験は我々の方法が有効であることを検証する。
関連論文リスト
- Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - How Can Increased Randomness in Stochastic Gradient Descent Improve
Generalization? [0.0]
一般化におけるSGD学習率とバッチサイズの役割について検討する。
SGD温度の上昇は局所的微小腫の曲率低下を助長することを示した。
論文 参考訳(メタデータ) (2021-08-21T13:18:49Z) - Noisy Truncated SGD: Optimization and Generalization [27.33458360279836]
近年のsgdに関する実証研究により、エポックのほとんどの勾配成分は極めて小さいことが示されている。
このような研究に触発され、雑音SGD(NT-SGD)の特性を厳格に研究する。
我々は,NT-SGDがサドルポイントから確実に脱出でき,従来と比べノイズの少ないことを証明した。
論文 参考訳(メタデータ) (2021-02-26T22:39:41Z) - Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。
この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。
そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文 参考訳(メタデータ) (2021-02-13T21:28:09Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - Towards Theoretically Understanding Why SGD Generalizes Better Than ADAM
in Deep Learning [165.47118387176607]
ADAMライクな適応勾配アルゴリズムが、学習速度が速いにもかかわらず、SGDよりも悪い一般化性能に苦しむ理由は不明である。
具体的には,これらのアルゴリズムの勾配雑音の重みを観測する。
論文 参考訳(メタデータ) (2020-10-12T12:00:26Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z) - Fractional Underdamped Langevin Dynamics: Retargeting SGD with Momentum
under Heavy-Tailed Gradient Noise [39.9241638707715]
FULDは, 深層学習における役割において, 自然的, エレガントな手法と類似性があることが示唆された。
論文 参考訳(メタデータ) (2020-02-13T18:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。