論文の概要: Correlated Noise in Epoch-Based Stochastic Gradient Descent:
Implications for Weight Variances
- arxiv url: http://arxiv.org/abs/2306.05300v1
- Date: Thu, 8 Jun 2023 15:45:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 13:35:55.935655
- Title: Correlated Noise in Epoch-Based Stochastic Gradient Descent:
Implications for Weight Variances
- Title(参考訳): Epoch-based Stochastic Gradient Descent における相関ノイズ : 体重変動との関連
- Authors: Marcel K\"uhn, Bernd Rosenow
- Abstract要約: 勾配降下(SGD)はニューラルネットワーク最適化の基盤となっている。
運動量を伴う離散時間SGDの定常分布に及ぼすエポックノイズ相関の影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) has become a cornerstone of neural network
optimization, yet the noise introduced by SGD is often assumed to be
uncorrelated over time, despite the ubiquity of epoch-based training. In this
work, we challenge this assumption and investigate the effects of epoch-based
noise correlations on the stationary distribution of discrete-time SGD with
momentum, limited to a quadratic loss. Our main contributions are twofold:
first, we calculate the exact autocorrelation of the noise for training in
epochs under the assumption that the noise is independent of small fluctuations
in the weight vector; second, we explore the influence of correlations
introduced by the epoch-based learning scheme on SGD dynamics. We find that for
directions with a curvature greater than a hyperparameter-dependent crossover
value, the results for uncorrelated noise are recovered. However, for
relatively flat directions, the weight variance is significantly reduced. We
provide an intuitive explanation for these results based on a crossover between
correlation times, contributing to a deeper understanding of the dynamics of
SGD in the presence of epoch-based noise correlations.
- Abstract(参考訳): 確率的勾配降下(sgd)はニューラルネットワークの最適化の基盤となっているが、sgdがもたらしたノイズはしばしば時間とともに相関しないと仮定される。
本研究では,この仮定に挑戦し,2次損失に限定された離散時間SGDの定常分布に対するエポック雑音相関の影響について検討する。
まず,重みベクトルの小さなゆらぎとは無関係であると仮定して,エポックにおける学習用ノイズの正確な自己相関を計算し,その相関がsgdダイナミクスに与える影響について検討する。
その結果,超パラメータ依存性のクロスオーバー値よりも曲率が大きい方向では,非相関ノイズが回復することがわかった。
しかし、比較的平坦な方向には、重量分散が著しく減少する。
相関時間間のクロスオーバーに基づいて,これらの結果に対する直感的な説明を行い,epochに基づく雑音相関の存在下でのsgdのダイナミクスの理解を深める。
関連論文リスト
- Algorithmic Stability of Stochastic Gradient Descent with Momentum under Heavy-Tailed Noise [20.922456964393213]
重み付き雑音下での運動量(SGDm)を持つSGDの一般化境界を確立する。
二次損失関数に対して、SGDm は運動量や重みのあるテールの存在においてより悪い一般化を持つことを示す。
我々の知る限り、縮退した雑音を持つSDEにおいて、その種類の最初の結果となる一様時間離散化誤差境界を開発する。
論文 参考訳(メタデータ) (2025-02-02T19:25:48Z) - Momentum Does Not Reduce Stochastic Noise in Stochastic Gradient Descent [0.6906005491572401]
ニューラルディープネットワークでは、運動量を持つ勾配降下(SGD)は、運動量を持たないSGDよりも速く収束し、より一般化できると言われている。
特に、運動量を加えることでこのバッチノイズが減少すると考えられている。
探索方向と最急降下方向の誤差として定義される雑音である探索方向雑音の効果を解析した。
論文 参考訳(メタデータ) (2024-02-04T02:48:28Z) - Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - High-Order Qubit Dephasing at Sweet Spots by Non-Gaussian Fluctuators:
Symmetry Breaking and Floquet Protection [55.41644538483948]
非ガウスゆらぎによるqubit dephasingについて検討した。
非ガウス雑音に特有の対称性破壊効果を予測する。
論文 参考訳(メタデータ) (2022-06-06T18:02:38Z) - Analyzing and Improving the Optimization Landscape of Noise-Contrastive
Estimation [50.85788484752612]
ノイズコントラスト推定(NCE)は、非正規化確率モデルを学習するための統計的に一貫した手法である。
ノイズ分布の選択がNCEの性能に不可欠であることが実験的に観察されている。
本研究では,不適切な雑音分布を用いた場合,NCEの性能低下の原因を正式に指摘する。
論文 参考訳(メタデータ) (2021-10-21T16:57:45Z) - Revisiting the Characteristics of Stochastic Gradient Noise and Dynamics [25.95229631113089]
勾配雑音は有限分散を持ち、したがって中央極限定理(CLT)が適用されることを示す。
次に、勾配降下の定常分布の存在を実証し、その分布を少ない学習速度で近似する。
論文 参考訳(メタデータ) (2021-09-20T20:39:14Z) - Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。
この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。
そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文 参考訳(メタデータ) (2021-02-13T21:28:09Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。