論文の概要: Role of Momentum in Smoothing Objective Function and Generalizability of Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2402.02325v3
- Date: Tue, 28 May 2024 13:18:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 11:38:36.629558
- Title: Role of Momentum in Smoothing Objective Function and Generalizability of Deep Neural Networks
- Title(参考訳): Smoothing Objective Function における Momentum の役割とディープニューラルネットワークの一般化可能性
- Authors: Naoki Sato, Hideaki Iiduka,
- Abstract要約: モーメントを有する勾配降下(SGD)における雑音は,学習速度,バッチサイズ,運動量係数,標準値の上限によって決定される目的関数を円滑にすることを示す。
また、雑音レベルに依存するアサーションモデルの一般化性を支持する実験結果も提供する。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For nonconvex objective functions, including deep neural networks, stochastic gradient descent (SGD) with momentum has fast convergence and excellent generalizability, but a theoretical explanation for this is lacking. In contrast to previous studies that defined the stochastic noise that occurs during optimization as the variance of the stochastic gradient, we define it as the gap between the search direction of the optimizer and the steepest descent direction and show that its level dominates generalizability of the model. We also show that the stochastic noise in SGD with momentum smoothes the objective function, the degree of which is determined by the learning rate, the batch size, the momentum factor, the variance of the stochastic gradient, and the upper bound of the gradient norm. By numerically deriving the stochastic noise level in SGD and SGD with momentum, we provide theoretical findings that help explain the training dynamics of SGD with momentum, which were not explained by previous studies on convergence and stability. We also provide experimental results supporting our assertion that model generalizability depends on the stochastic noise level.
- Abstract(参考訳): ディープニューラルネットワークを含む非凸目的関数では、運動量を持つ確率勾配降下(SGD)は高速収束と優れた一般化性を持つが、理論的には不足している。
最適化時に発生する確率雑音を確率勾配の分散として定義する以前の研究とは対照的に、最適化器の探索方向と最急降下方向とのギャップとして定義し、そのレベルがモデルの一般化可能性を支配することを示す。
また, 運動量を持つSGDの確率雑音は, 学習速度, バッチサイズ, 運動量係数, 確率勾配のばらつき, 勾配ノルムの上界によって決定される目標関数を円滑にすることを示した。
本研究では,SGD と SGD の確率的雑音レベルを運動量で数値的に導出することにより,SGD の運動量によるトレーニング力学を説明する理論的知見を提供する。
また,モデル一般化性は確率的雑音レベルに依存するという主張を支持する実験結果も提供する。
関連論文リスト
- Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。
実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文 参考訳(メタデータ) (2023-07-27T21:01:26Z) - High-Order Qubit Dephasing at Sweet Spots by Non-Gaussian Fluctuators:
Symmetry Breaking and Floquet Protection [55.41644538483948]
非ガウスゆらぎによるqubit dephasingについて検討した。
非ガウス雑音に特有の対称性破壊効果を予測する。
論文 参考訳(メタデータ) (2022-06-06T18:02:38Z) - Computing the Variance of Shuffling Stochastic Gradient Algorithms via
Power Spectral Density Analysis [6.497816402045099]
理論上の利点を持つ勾配降下(SGD)の2つの一般的な選択肢は、ランダムリシャッフル(SGDRR)とシャッフルオンス(SGD-SO)である。
本研究では,SGD,SGDRR,SGD-SOの定常変動について検討した。
論文 参考訳(メタデータ) (2022-06-01T17:08:04Z) - Revisiting the Characteristics of Stochastic Gradient Noise and Dynamics [25.95229631113089]
勾配雑音は有限分散を持ち、したがって中央極限定理(CLT)が適用されることを示す。
次に、勾配降下の定常分布の存在を実証し、その分布を少ない学習速度で近似する。
論文 参考訳(メタデータ) (2021-09-20T20:39:14Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Stochastic gradient descent with noise of machine learning type. Part
II: Continuous time analysis [0.0]
特定の雑音条件下では、最適化アルゴリズムは、同質雑音を伴う連続時間SGDの平坦な最小選択とは異なる意味で、目的関数の「平坦な」ミニマを好むことを示す。
論文 参考訳(メタデータ) (2021-06-04T16:34:32Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。