論文の概要: Revisiting the Noise Model of Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2303.02749v1
- Date: Sun, 5 Mar 2023 18:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 17:57:41.251529
- Title: Revisiting the Noise Model of Stochastic Gradient Descent
- Title(参考訳): 確率勾配降下の騒音モデルの再検討
- Authors: Barak Battash and Ofir Lindenbaum
- Abstract要約: 勾配雑音 (SGN) は勾配降下の成功に重要な要因である。
SGNはヘビーテールであり、$Salpha S$ディストリビューションによりよりよく表現されていることを示す。
- 参考スコア(独自算出の注目度): 5.482532589225552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The stochastic gradient noise (SGN) is a significant factor in the success of
stochastic gradient descent (SGD). Following the central limit theorem, SGN was
initially modeled as Gaussian, and lately, it has been suggested that
stochastic gradient noise is better characterized using $S\alpha S$ L\'evy
distribution. This claim was allegedly refuted and rebounded to the previously
suggested Gaussian noise model. This paper presents solid, detailed empirical
evidence that SGN is heavy-tailed and better depicted by the $S\alpha S$
distribution. Furthermore, we argue that different parameters in a deep neural
network (DNN) hold distinct SGN characteristics throughout training. To more
accurately approximate the dynamics of SGD near a local minimum, we construct a
novel framework in $\mathbb{R}^N$, based on L\'evy-driven stochastic
differential equation (SDE), where one-dimensional L\'evy processes model each
parameter in the DNN. Next, we show that SGN jump intensity (frequency and
amplitude) depends on the learning rate decay mechanism (LRdecay); furthermore,
we demonstrate empirically that the LRdecay effect may stem from the reduction
of the SGN and not the decrease in the step size. Based on our analysis, we
examine the mean escape time, trapping probability, and more properties of DNNs
near local minima. Finally, we prove that the training process will likely exit
from the basin in the direction of parameters with heavier tail SGN. We will
share our code for reproducibility.
- Abstract(参考訳): 確率勾配雑音(SGN)は,確率勾配降下(SGD)の成功に重要な要因である。
中心極限定理の後、SGN は当初ガウス的としてモデル化され、最近、S\alpha S$ L\'evy 分布を用いて確率勾配雑音がより良く特徴づけられることが示唆されている。
この主張は、以前提案されたガウスノイズモデルに反証され、反証されたと言われている。
本稿では、SGNが重く、S\alpha S$分布によりよりよく表現されているという、固く詳細な経験的証拠を示す。
さらに、深層ニューラルネットワーク(DNN)の異なるパラメータは、トレーニング全体を通して異なるSGN特性を持つと主張する。
局所最小値近傍でのSGDのダイナミクスをより正確に近似するために、L\'evy-driven stochastic differential equation (SDE) に基づく$\mathbb{R}^N$の新たなフレームワークを構築し、DNNの各パラメータを1次元のL\'evyプロセスでモデル化する。
次に、sgnジャンプ強度(周波数と振幅)が学習速度減衰機構(lrdecay)に依存することを示し、さらに、lrdecay効果がステップサイズの減少ではなくsgnの低下に起因する可能性があることを実証的に示す。
本研究では,dnnの平均脱出時間,トラッピング確率,および局所ミニマ近傍のdnnの特性について検討した。
最後に,より重い尾部sgnのパラメータの方向に,訓練過程が盆地から出る可能性が高いことを証明した。
再現性のためにコードを共有します。
関連論文リスト
- Noise in the reverse process improves the approximation capabilities of
diffusion models [27.65800389807353]
生成モデリングにおける最先端技術であるスコアベース生成モデリング(SGM)では、リバースプロセスは決定論的手法よりも優れた性能を発揮することが知られている。
本稿では,ニューラル常微分方程式 (ODE) とニューラルディメンション方程式 (SDE) を逆過程として比較し,この現象の核となる。
我々は、Fokker-Planck方程式の軌跡を近似するニューラルSDEの能力を解析し、ニューラルティの利点を明らかにする。
論文 参考訳(メタデータ) (2023-12-13T02:39:10Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文 参考訳(メタデータ) (2021-05-05T13:54:26Z) - Positive-Negative Momentum: Manipulating Stochastic Gradient Noise to
Improve Generalization [89.7882166459412]
勾配雑音(SGN)は、ディープラーニングの暗黙の正規化として機能する。
深層学習を改善するためにランダムノイズを注入してSGNを人工的にシミュレートしようとした作品もある。
低計算コストでSGNをシミュレーションし、学習率やバッチサイズを変更することなく、PNM(Positive-Negative Momentum)アプローチを提案する。
論文 参考訳(メタデータ) (2021-03-31T16:08:06Z) - Asymmetric Heavy Tails and Implicit Bias in Gaussian Noise Injections [73.95786440318369]
我々は、勾配降下(SGD)のダイナミクスに対する注射ノイズの影響であるGNIsのいわゆる暗黙効果に焦点を当てています。
この効果は勾配更新に非対称な重尾ノイズを誘発することを示す。
そして、GNIが暗黙のバイアスを引き起こすことを正式に証明し、これは尾の重みと非対称性のレベルによって異なる。
論文 参考訳(メタデータ) (2021-02-13T21:28:09Z) - Faster Convergence of Stochastic Gradient Langevin Dynamics for
Non-Log-Concave Sampling [110.88857917726276]
我々は,非log-concaveとなる分布のクラスからサンプリングするために,勾配ランゲヴィンダイナミクス(SGLD)の新たな収束解析を行う。
我々のアプローチの核心は、補助的時間反転型マルコフ連鎖を用いたSGLDのコンダクタンス解析である。
論文 参考訳(メタデータ) (2020-10-19T15:23:18Z) - Dynamic of Stochastic Gradient Descent with State-Dependent Noise [84.64013284862733]
勾配降下(SGD)とその変種は、ディープニューラルネットワークを訓練するための主流の方法である。
局所ミニマの局所領域におけるSGDのノイズの共分散は状態の二次関数であることを示す。
本稿では,SGDのダイナミクスを近似するために,状態依存拡散を伴う新しいパワーローダイナミクスを提案する。
論文 参考訳(メタデータ) (2020-06-24T13:34:38Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - On the Promise of the Stochastic Generalized Gauss-Newton Method for
Training DNNs [37.96456928567548]
一般化されたガウスニュートン法(SGN)を用いてDNNの訓練を行う。
SGNは2次最適化法であり、効率の良い反復法であり、標準のSGDよりもはるかに少ない繰り返しを必要とすることがよく示される。
我々は,SGNが反復回数の点でSGDよりも大幅に改善されているだけでなく,実行時の点でも改善されていることを示す。
これは、私たちがTheanoディープラーニングプラットフォームで提案するSGNの効率的で使いやすく柔軟な実装によって実現されている。
論文 参考訳(メタデータ) (2020-06-03T17:35:54Z) - Fractional Underdamped Langevin Dynamics: Retargeting SGD with Momentum
under Heavy-Tailed Gradient Noise [39.9241638707715]
FULDは, 深層学習における役割において, 自然的, エレガントな手法と類似性があることが示唆された。
論文 参考訳(メタデータ) (2020-02-13T18:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。