論文の概要: Emergence of heavy tails in homogenized stochastic gradient descent
- arxiv url: http://arxiv.org/abs/2402.01382v1
- Date: Fri, 2 Feb 2024 13:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:29:26.307245
- Title: Emergence of heavy tails in homogenized stochastic gradient descent
- Title(参考訳): 均質化確率勾配降下における重尾の出現
- Authors: Zhe Jiao, Martin Keller-Ressel
- Abstract要約: 勾配降下(SGD)による損失は、重み付きネットワークパラメータをもたらす。
我々はSGDの連続拡散近似をホモジェナイズド勾配降下(homogenized gradient descent)と呼ぶ解析を行った。
最適化パラメータとテールインデックス間の相互作用を定量化する。
- 参考スコア(独自算出の注目度): 1.450405446885067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has repeatedly been observed that loss minimization by stochastic gradient
descent (SGD) leads to heavy-tailed distributions of neural network parameters.
Here, we analyze a continuous diffusion approximation of SGD, called
homogenized stochastic gradient descent, show that it behaves asymptotically
heavy-tailed, and give explicit upper and lower bounds on its tail-index. We
validate these bounds in numerical experiments and show that they are typically
close approximations to the empirical tail-index of SGD iterates. In addition,
their explicit form enables us to quantify the interplay between optimization
parameters and the tail-index. Doing so, we contribute to the ongoing
discussion on links between heavy tails and the generalization performance of
neural networks as well as the ability of SGD to avoid suboptimal local minima.
- Abstract(参考訳): 確率勾配降下(SGD)による損失最小化は、ニューラルネットワークパラメータの重み付き分布をもたらすことが繰り返し観測されている。
そこで我々は,SGDの連続拡散近似をホモジナイズド・確率勾配勾配(hoogenized stochastic gradient descent)と呼び,漸近的に重く振舞うことを示す。
これらの境界を数値実験で検証し,sgdイテレートの実験的テールインデックスに近い近似であることを示す。
さらに、それらの明示的な形式により、最適化パラメータとテールインデックス間の相互作用を定量化することができる。
そこで我々は,重尾間の関係とニューラルネットワークの一般化性能に関する議論の進行に寄与し,また,SGDによる局所的極小視の回避にも寄与する。
関連論文リスト
- Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Exponential convergence rates for momentum stochastic gradient descent in the overparametrized setting [0.6445605125467574]
我々は運動量勾配降下スキーム(MSGD)の収束率の有界性を証明する。
摩擦の最適選択を解析し、MSGDプロセスがほぼ確実に局所に収束することを示す。
論文 参考訳(メタデータ) (2023-02-07T15:59:08Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z) - Federated Stochastic Gradient Langevin Dynamics [12.180900849847252]
勾配ランゲヴィン力学(SGLD)のような勾配MCMC法は、大規模後方サンプリングを可能にするために高速だがノイズの多い勾配推定を用いる。
本稿では,局所確率近似を組み合わせ,勾配の修正を行う単純なメカニズムである導出勾配を提案する。
DSGLDが故障した場合に,本手法は遅延通信ラウンドを処理し,ターゲット後方に収束することを示す。
論文 参考訳(メタデータ) (2020-04-23T15:25:09Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。