論文の概要: A Theoretical Analysis of Noise Geometry in Stochastic Gradient Descent
- arxiv url: http://arxiv.org/abs/2310.00692v3
- Date: Thu, 1 Feb 2024 11:15:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 19:16:28.798746
- Title: A Theoretical Analysis of Noise Geometry in Stochastic Gradient Descent
- Title(参考訳): 確率勾配Descenceにおける騒音形状の理論解析
- Authors: Mingze Wang, Lei Wu
- Abstract要約: ミニバッチ勾配降下(ミニバッチ勾配降下)は、騒音が局所景観の幾何学と良好に一致する幾何学現象である。
ノイズが損失と部分空間射影力学にどのように影響するかを解析し,アライメント強度を定量化する2つの指標を提案する。
- 参考スコア(独自算出の注目度): 9.064667124987068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we provide a theoretical study of noise geometry for minibatch
stochastic gradient descent (SGD), a phenomenon where noise aligns favorably
with the geometry of local landscape. We propose two metrics, derived from
analyzing how noise influences the loss and subspace projection dynamics, to
quantify the alignment strength. We show that for (over-parameterized) linear
models and two-layer nonlinear networks, when measured by these metrics, the
alignment can be provably guaranteed under conditions independent of the degree
of over-parameterization. To showcase the utility of our noise geometry
characterizations, we present a refined analysis of the mechanism by which SGD
escapes from sharp minima. We reveal that unlike gradient descent (GD), which
escapes along the sharpest directions, SGD tends to escape from flatter
directions and cyclical learning rates can exploit this SGD characteristic to
navigate more effectively towards flatter regions. Lastly, extensive
experiments are provided to support our theoretical findings.
- Abstract(参考訳): 本稿では,局所景観の形状と騒音が良好に一致するSGD(Minibatch Stochastic gradient descent)のノイズ幾何学に関する理論的研究を行う。
ノイズが損失および部分空間射影力学に与える影響を解析し、アライメント強度を定量化する2つの指標を提案する。
過パラメータ化線形モデルと2層非線形ネットワークの場合、これらの測定値によって測定すると、過パラメータ化の度合いに依存しない条件下でアライメントが確実に保証されることを示す。
ノイズ幾何学的特徴付けの有用性を示すために,SGDがシャープ・ミニマから逃れるメカニズムを精巧に分析した。
我々は,最も鋭い方向から脱出する勾配降下 (gd) とは異なり, sgdは平坦な方向から逃げる傾向にあり, 周期的学習速度はこのsgd特性を利用してより平坦な領域へ移動できることを明らかにした。
最後に,我々の理論的な知見を裏付ける広範な実験を行った。
関連論文リスト
- Loss Symmetry and Noise Equilibrium of Stochastic Gradient Descent [8.347295051171525]
連続対称性の幅広いサブクラスである指数対称性が損失関数に存在するとき、勾配降下(SGD)の学習力学を特徴付ける。
損失関数の定数方向における特別な固定点は、SGDの解の候補として現れる。
論文 参考訳(メタデータ) (2024-02-11T13:00:04Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Quasi-potential theory for escape problem: Quantitative sharpness effect
on SGD's escape from local minima [10.990447273771592]
本研究では,緩やかな勾配降下(SGD)アルゴリズムに関する定量的理論を開発する。
ノイズニューラルネットワークにおける損失面のシャープさの影響について検討する。
論文 参考訳(メタデータ) (2021-11-07T05:00:35Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z) - Fractional Underdamped Langevin Dynamics: Retargeting SGD with Momentum
under Heavy-Tailed Gradient Noise [39.9241638707715]
FULDは, 深層学習における役割において, 自然的, エレガントな手法と類似性があることが示唆された。
論文 参考訳(メタデータ) (2020-02-13T18:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。