Fugu-MT 論文翻訳(概要): Role of Momentum in Smoothing Objective Function and Generalizability of Deep Neural Networks

論文の概要: Role of Momentum in Smoothing Objective Function and Generalizability of Deep Neural Networks

arxiv url: http://arxiv.org/abs/2402.02325v3
Date: Tue, 28 May 2024 13:18:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 11:38:36.629558
Title: Role of Momentum in Smoothing Objective Function and Generalizability of Deep Neural Networks
Title（参考訳）: Smoothing Objective Function における Momentum の役割とディープニューラルネットワークの一般化可能性
Authors: Naoki Sato, Hideaki Iiduka,
Abstract要約: モーメントを有する勾配降下(SGD)における雑音は,学習速度,バッチサイズ,運動量係数,標準値の上限によって決定される目的関数を円滑にすることを示す。また、雑音レベルに依存するアサーションモデルの一般化性を支持する実験結果も提供する。
参考スコア（独自算出の注目度）: 0.6906005491572401
License: http://creativecommons.org/licenses/by/4.0/
Abstract: For nonconvex objective functions, including deep neural networks, stochastic gradient descent (SGD) with momentum has fast convergence and excellent generalizability, but a theoretical explanation for this is lacking. In contrast to previous studies that defined the stochastic noise that occurs during optimization as the variance of the stochastic gradient, we define it as the gap between the search direction of the optimizer and the steepest descent direction and show that its level dominates generalizability of the model. We also show that the stochastic noise in SGD with momentum smoothes the objective function, the degree of which is determined by the learning rate, the batch size, the momentum factor, the variance of the stochastic gradient, and the upper bound of the gradient norm. By numerically deriving the stochastic noise level in SGD and SGD with momentum, we provide theoretical findings that help explain the training dynamics of SGD with momentum, which were not explained by previous studies on convergence and stability. We also provide experimental results supporting our assertion that model generalizability depends on the stochastic noise level.
Abstract（参考訳）: ディープニューラルネットワークを含む非凸目的関数では、運動量を持つ確率勾配降下(SGD)は高速収束と優れた一般化性を持つが、理論的には不足している。最適化時に発生する確率雑音を確率勾配の分散として定義する以前の研究とは対照的に、最適化器の探索方向と最急降下方向とのギャップとして定義し、そのレベルがモデルの一般化可能性を支配することを示す。また, 運動量を持つSGDの確率雑音は, 学習速度, バッチサイズ, 運動量係数, 確率勾配のばらつき, 勾配ノルムの上界によって決定される目標関数を円滑にすることを示した。本研究では,SGD と SGD の確率的雑音レベルを運動量で数値的に導出することにより,SGD の運動量によるトレーニング力学を説明する理論的知見を提供する。また,モデル一般化性は確率的雑音レベルに依存するという主張を支持する実験結果も提供する。

関連論文リスト

Stochastic Weakly Convex Optimization Under Heavy-Tailed Noises [55.43924214633558]
本稿では,サブワイブルノイズとSsBCノイズの2種類のノイズに着目した。これら2つのノイズ仮定の下では、凸最適化と滑らかな最適化の文脈において、SFOMの不規則および高確率収束が研究されている。
論文参考訳（メタデータ） (2025-07-17T16:48:45Z)
Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文参考訳（メタデータ） (2023-11-07T17:39:17Z)
The Marginal Value of Momentum for Small Learning Rate SGD [20.606430391298815]
モーメントは、勾配雑音のない強い凸条件下での勾配降下の収束を加速することが知られている。実験により、最適学習率があまり大きくない実践訓練において、運動量には最適化と一般化の両方の利点があることがわかった。
論文参考訳（メタデータ） (2023-07-27T21:01:26Z)
Convergence of mean-field Langevin dynamics: Time and space discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文参考訳（メタデータ） (2023-06-12T16:28:11Z)
Stability and Generalization Analysis of Gradient Methods for Shallow Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文参考訳（メタデータ） (2022-09-19T18:48:00Z)
Label noise (stochastic) gradient descent implicitly solves the Lasso for quadratic parametrisation [14.244787327283335]
本研究では, 連続時間モデルを用いて, 4次パラメトリッドモデルのトレーニング力学におけるラベルノイズの役割について検討する。本研究は,構造ノイズがより高度な一般化を誘導し,実際に観察されるダイナミックスの性能の向上を説明できることを示すものである。
論文参考訳（メタデータ） (2022-06-20T15:24:42Z)
High-Order Qubit Dephasing at Sweet Spots by Non-Gaussian Fluctuators: Symmetry Breaking and Floquet Protection [55.41644538483948]
非ガウスゆらぎによるqubit dephasingについて検討した。非ガウス雑音に特有の対称性破壊効果を予測する。
論文参考訳（メタデータ） (2022-06-06T18:02:38Z)
Computing the Variance of Shuffling Stochastic Gradient Algorithms via Power Spectral Density Analysis [6.497816402045099]
理論上の利点を持つ勾配降下(SGD)の2つの一般的な選択肢は、ランダムリシャッフル(SGDRR)とシャッフルオンス(SGD-SO)である。本研究では,SGD,SGDRR,SGD-SOの定常変動について検討した。
論文参考訳（メタデータ） (2022-06-01T17:08:04Z)
On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。理論的にも経験的にも二重降下現象を観察する。
論文参考訳（メタデータ） (2021-10-13T17:47:39Z)
Revisiting the Characteristics of Stochastic Gradient Noise and Dynamics [25.95229631113089]
勾配雑音は有限分散を持ち、したがって中央極限定理(CLT)が適用されることを示す。次に、勾配降下の定常分布の存在を実証し、その分布を少ない学習速度で近似する。
論文参考訳（メタデータ） (2021-09-20T20:39:14Z)
On the Hyperparameters in Stochastic Gradient Descent with Momentum [6.396288020763144]
本稿では,運動量を伴う勾配降下理論(SGD)について述べる。以上の結果から,SGD の正の線形速度は,SGD が0 から0 に増加するにつれて変化し,SGD の線形速度が変化することを示す。最後に、この速度下での代理運動量と運動量との本質的な違いは示さない。
論文参考訳（メタデータ） (2021-08-09T11:25:03Z)
Differentiable Annealed Importance Sampling and the Perils of Gradient Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文参考訳（メタデータ） (2021-07-21T17:10:14Z)
Stochastic gradient descent with noise of machine learning type. Part II: Continuous time analysis [0.0]
特定の雑音条件下では、最適化アルゴリズムは、同質雑音を伴う連続時間SGDの平坦な最小選択とは異なる意味で、目的関数の「平坦な」ミニマを好むことを示す。
論文参考訳（メタデータ） (2021-06-04T16:34:32Z)
On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文参考訳（メタデータ） (2021-02-26T18:58:29Z)
Noise and Fluctuation of Finite Learning Rate Stochastic Gradient Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。 SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文参考訳（メタデータ） (2020-12-07T12:31:43Z)
A High Probability Analysis of Adaptive SGD with Momentum [22.9530287983179]
Gradient Descent(DSG)とその変種は、機械学習アプリケーションで最も使われているアルゴリズムである。モーメントを持つdelayedGrad の滑らかな非設定において、勾配が 0 になる確率を初めて示す。
論文参考訳（メタデータ） (2020-07-28T15:06:22Z)
Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文参考訳（メタデータ） (2020-06-24T13:34:38Z)
Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文参考訳（メタデータ） (2020-06-15T18:31:02Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)
Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。この場合、最先端の結果を上回る新たな複雑さが証明される。本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文参考訳（メタデータ） (2020-05-21T17:05:27Z)
On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文参考訳（メタデータ） (2020-04-15T09:52:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。