論文の概要: Momentum Does Not Reduce Stochastic Noise in Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2402.02325v4
- Date: Mon, 03 Feb 2025 16:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:53:53.053759
- Title: Momentum Does Not Reduce Stochastic Noise in Stochastic Gradient Descent
- Title(参考訳): モーメントは確率的勾配の老化において確率的雑音を低減しない
- Authors: Naoki Sato, Hideaki Iiduka,
- Abstract要約: ニューラルディープネットワークでは、運動量を持つ勾配降下(SGD)は、運動量を持たないSGDよりも速く収束し、より一般化できると言われている。
特に、運動量を加えることでこのバッチノイズが減少すると考えられている。
探索方向と最急降下方向の誤差として定義される雑音である探索方向雑音の効果を解析した。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License:
- Abstract: For nonconvex objective functions, including those found in training deep neural networks, stochastic gradient descent (SGD) with momentum is said to converge faster and have better generalizability than SGD without momentum. In particular, adding momentum is thought to reduce stochastic noise. To verify this, we estimated the magnitude of gradient noise by using convergence analysis and an optimal batch size estimation formula and found that momentum does not reduce gradient noise. We also analyzed the effect of search direction noise, which is stochastic noise defined as the error between the search direction of the optimizer and the steepest descent direction, and found that it inherently smooths the objective function and that momentum does not reduce search direction noise either. Finally, an analysis of the degree of smoothing introduced by search direction noise revealed that adding momentum offers limited advantage to SGD.
- Abstract(参考訳): 深層ニューラルネットワークのトレーニングで見られるような非凸目的関数では、運動量を持つ確率勾配降下(SGD)は運動量を持たないSGDよりも早く収束し、より一般化できると言われている。
特に、運動量を加えることで確率ノイズが減少すると考えられている。
これを検証するため,収束解析と最適バッチサイズ推定式を用いて勾配雑音の大きさを推定した。
また,オプティマイザの探索方向と最急降下方向との誤差として定義される確率ノイズである探索方向雑音の効果を解析し,目的関数を本質的に滑らかにし,運動量も探索方向雑音を低減しないことを示した。
最後に,探索方向雑音による平滑化の程度を解析した結果,加算モーメントがSGDに限られた利点をもたらすことが明らかとなった。
関連論文リスト
- Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。
実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文 参考訳(メタデータ) (2023-07-27T21:01:26Z) - High-Order Qubit Dephasing at Sweet Spots by Non-Gaussian Fluctuators:
Symmetry Breaking and Floquet Protection [55.41644538483948]
非ガウスゆらぎによるqubit dephasingについて検討した。
非ガウス雑音に特有の対称性破壊効果を予測する。
論文 参考訳(メタデータ) (2022-06-06T18:02:38Z) - Computing the Variance of Shuffling Stochastic Gradient Algorithms via
Power Spectral Density Analysis [6.497816402045099]
理論上の利点を持つ勾配降下(SGD)の2つの一般的な選択肢は、ランダムリシャッフル(SGDRR)とシャッフルオンス(SGD-SO)である。
本研究では,SGD,SGDRR,SGD-SOの定常変動について検討した。
論文 参考訳(メタデータ) (2022-06-01T17:08:04Z) - Revisiting the Characteristics of Stochastic Gradient Noise and Dynamics [25.95229631113089]
勾配雑音は有限分散を持ち、したがって中央極限定理(CLT)が適用されることを示す。
次に、勾配降下の定常分布の存在を実証し、その分布を少ない学習速度で近似する。
論文 参考訳(メタデータ) (2021-09-20T20:39:14Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Stochastic gradient descent with noise of machine learning type. Part
II: Continuous time analysis [0.0]
特定の雑音条件下では、最適化アルゴリズムは、同質雑音を伴う連続時間SGDの平坦な最小選択とは異なる意味で、目的関数の「平坦な」ミニマを好むことを示す。
論文 参考訳(メタデータ) (2021-06-04T16:34:32Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。