論文の概要: Correlated Noise in Epoch-Based Stochastic Gradient Descent: Implications for Weight Variances
- arxiv url: http://arxiv.org/abs/2306.05300v2
- Date: Mon, 15 Jul 2024 12:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 05:18:31.665254
- Title: Correlated Noise in Epoch-Based Stochastic Gradient Descent: Implications for Weight Variances
- Title(参考訳): Epoch-based Stochastic Gradient Descent における相関ノイズ : 体重変動との関連について
- Authors: Marcel Kühn, Bernd Rosenow,
- Abstract要約: 勾配降下(SGD)はニューラルネットワーク最適化の基盤となっている。
運動量を伴う離散時間SGDの定常分布に及ぼすエポックノイズ相関の影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) has become a cornerstone of neural network optimization, yet the noise introduced by SGD is often assumed to be uncorrelated over time, despite the ubiquity of epoch-based training. In this work, we challenge this assumption and investigate the effects of epoch-based noise correlations on the stationary distribution of discrete-time SGD with momentum, limited to a quadratic loss. Our main contributions are twofold: first, we calculate the exact autocorrelation of the noise for training in epochs under the assumption that the noise is independent of small fluctuations in the weight vector, and find that SGD noise is anti-correlated in time. Second, we explore the influence of these anti-correlations on SGD dynamics. We find that for directions with a curvature greater than a hyperparameter-dependent crossover value, the results for uncorrelated noise are recovered. However, for relatively flat directions, the weight variance is significantly reduced, and our variance prediction leads to a considerable reduction in loss fluctuations as compared to the constant weight variance assumption.
- Abstract(参考訳): 確率勾配降下(SGD)は、ニューラルネットワーク最適化の基盤となっているが、SGDによって引き起こされるノイズは、エポックベースのトレーニングが多用されているにもかかわらず、時間とともに無相関であるとしばしば考えられている。
本研究では,この仮定に挑戦し,2次損失に限定された離散時間SGDの定常分布に対するエポック雑音相関の影響について検討する。
まず、重みベクトルの小さなゆらぎに依存しないという仮定の下で、エポジストにおけるトレーニング用ノイズの正確な自己相関を計算し、SGDノイズが時間的に反相関であることを示す。
第2に、これらの相関がSGDダイナミクスに与える影響について検討する。
その結果,超パラメータ依存性のクロスオーバー値よりも曲率が大きい方向では,非相関ノイズが回復することがわかった。
しかし、比較的平坦な方向には、重み分散は著しく減少し、我々の分散予測は、一定の重み分散仮定と比較して損失変動を著しく減少させる。
関連論文リスト
- Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - High-Order Qubit Dephasing at Sweet Spots by Non-Gaussian Fluctuators:
Symmetry Breaking and Floquet Protection [55.41644538483948]
非ガウスゆらぎによるqubit dephasingについて検討した。
非ガウス雑音に特有の対称性破壊効果を予測する。
論文 参考訳(メタデータ) (2022-06-06T18:02:38Z) - The effective noise of Stochastic Gradient Descent [9.645196221785694]
Gradient Descent (SGD) は、ディープラーニング技術のワークホースアルゴリズムである。
SGDのパラメータと最近導入された変種である永続型SGDをニューラルネットワークモデルで特徴づける。
よりノイズの多いアルゴリズムは、対応する制約満足度問題のより広い決定境界につながる。
論文 参考訳(メタデータ) (2021-12-20T20:46:19Z) - Analyzing and Improving the Optimization Landscape of Noise-Contrastive
Estimation [50.85788484752612]
ノイズコントラスト推定(NCE)は、非正規化確率モデルを学習するための統計的に一貫した手法である。
ノイズ分布の選択がNCEの性能に不可欠であることが実験的に観察されている。
本研究では,不適切な雑音分布を用いた場合,NCEの性能低下の原因を正式に指摘する。
論文 参考訳(メタデータ) (2021-10-21T16:57:45Z) - Revisiting the Characteristics of Stochastic Gradient Noise and Dynamics [25.95229631113089]
勾配雑音は有限分散を持ち、したがって中央極限定理(CLT)が適用されることを示す。
次に、勾配降下の定常分布の存在を実証し、その分布を少ない学習速度で近似する。
論文 参考訳(メタデータ) (2021-09-20T20:39:14Z) - Generalization Error Rates in Kernel Regression: The Crossover from the
Noiseless to Noisy Regime [29.731516232010343]
我々はKRR(Kernel Ridge Regression)をガウスの設計に基づいて検討する。
サンプルの複雑さが増大するにつれて、ノイズのない指数とノイズのない値との雑音環境における遷移の存在を示す。
論文 参考訳(メタデータ) (2021-05-31T14:39:08Z) - Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。
この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。
そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文 参考訳(メタデータ) (2021-02-13T21:28:09Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。