論文の概要: Revisiting the Characteristics of Stochastic Gradient Noise and Dynamics
- arxiv url: http://arxiv.org/abs/2109.09833v1
- Date: Mon, 20 Sep 2021 20:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:35:09.142839
- Title: Revisiting the Characteristics of Stochastic Gradient Noise and Dynamics
- Title(参考訳): 確率的勾配雑音と力学特性の再検討
- Authors: Yixin Wu and Rui Luo and Chen Zhang and Jun Wang and Yaodong Yang
- Abstract要約: 勾配雑音は有限分散を持ち、したがって中央極限定理(CLT)が適用されることを示す。
次に、勾配降下の定常分布の存在を実証し、その分布を少ない学習速度で近似する。
- 参考スコア(独自算出の注目度): 25.95229631113089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we characterize the noise of stochastic gradients and analyze
the noise-induced dynamics during training deep neural networks by
gradient-based optimizers. Specifically, we firstly show that the stochastic
gradient noise possesses finite variance, and therefore the classical Central
Limit Theorem (CLT) applies; this indicates that the gradient noise is
asymptotically Gaussian. Such an asymptotic result validates the wide-accepted
assumption of Gaussian noise. We clarify that the recently observed phenomenon
of heavy tails within gradient noise may not be intrinsic properties, but the
consequence of insufficient mini-batch size; the gradient noise, which is a sum
of limited i.i.d. random variables, has not reached the asymptotic regime of
CLT, thus deviates from Gaussian. We quantitatively measure the goodness of
Gaussian approximation of the noise, which supports our conclusion. Secondly,
we analyze the noise-induced dynamics of stochastic gradient descent using the
Langevin equation, granting for momentum hyperparameter in the optimizer with a
physical interpretation. We then proceed to demonstrate the existence of the
steady-state distribution of stochastic gradient descent and approximate the
distribution at a small learning rate.
- Abstract(参考訳): 本稿では,確率的勾配の雑音を特徴付け,勾配に基づくオプティマイザによる深層ニューラルネットワークの訓練中に発生する雑音誘起ダイナミクスを解析する。
具体的には、まず確率的勾配ノイズが有限分散を持つことを示すため、古典的中心極限定理(clt)が適用される。
このような漸近的な結果はガウス雑音の広義の仮定を検証する。
勾配雑音における最近観測された重尾の現象は本質的性質ではないが,小バッチサイズが不十分な結果であり,限定されたi.i.d.確率変数の和である勾配雑音はcltの漸近的構造に達しず,ガウス型から逸脱していることが明らかとなった。
ガウス近似(gaussian approximation of the noise)の良否を定量的に測定し,結論を裏付ける。
次に、Langevin方程式を用いて確率勾配降下の雑音誘起力学を解析し、物理解釈によるオプティマイザの運動量ハイパーパラメーターを与える。
次に,確率勾配降下の定常分布の存在を実証し,小さな学習率で分布を近似する。
関連論文リスト
- Role of Momentum in Smoothing Objective Function and Generalizability of Deep Neural Networks [0.6906005491572401]
モーメントを有する勾配降下(SGD)における雑音は,学習速度,バッチサイズ,運動量係数,標準値の上限によって決定される目的関数を円滑にすることを示す。
また、雑音レベルに依存するアサーションモデルの一般化性を支持する実験結果も提供する。
論文 参考訳(メタデータ) (2024-02-04T02:48:28Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - Asymptotic consistency of the WSINDy algorithm in the limit of continuum
data [0.0]
非線形力学アルゴリズム(WSINDy)の弱形式スパース同定の整合性について検討する。
弱形式方程式学習の雑音に対する観測されたロバスト性について数学的に厳密な説明を行う。
論文 参考訳(メタデータ) (2022-11-29T07:49:34Z) - A note on diffusion limits for stochastic gradient descent [0.0]
勾配アルゴリズムにおける雑音の役割を明確にしようとする理論の多くは、ガウス雑音を持つ微分方程式による勾配降下を広く近似している。
本稿では, 自然に発生する騒音を提示する新しい理論的正当化法を提案する。
論文 参考訳(メタデータ) (2022-10-20T13:27:00Z) - High-Order Qubit Dephasing at Sweet Spots by Non-Gaussian Fluctuators:
Symmetry Breaking and Floquet Protection [55.41644538483948]
非ガウスゆらぎによるqubit dephasingについて検討した。
非ガウス雑音に特有の対称性破壊効果を予測する。
論文 参考訳(メタデータ) (2022-06-06T18:02:38Z) - Computing the Variance of Shuffling Stochastic Gradient Algorithms via
Power Spectral Density Analysis [6.497816402045099]
理論上の利点を持つ勾配降下(SGD)の2つの一般的な選択肢は、ランダムリシャッフル(SGDRR)とシャッフルオンス(SGD-SO)である。
本研究では,SGD,SGDRR,SGD-SOの定常変動について検討した。
論文 参考訳(メタデータ) (2022-06-01T17:08:04Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。
この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。
そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文 参考訳(メタデータ) (2021-02-13T21:28:09Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。