論文の概要: The Noise Geometry of Stochastic Gradient Descent: A Quantitative and
Analytical Characterization
- arxiv url: http://arxiv.org/abs/2310.00692v2
- Date: Fri, 24 Nov 2023 10:10:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 03:17:44.694690
- Title: The Noise Geometry of Stochastic Gradient Descent: A Quantitative and
Analytical Characterization
- Title(参考訳): 確率的グラディエントDescenceのノイズ幾何学:定量的および解析的解析
- Authors: Mingze Wang, Lei Wu
- Abstract要約: 勾配降下(SGD)の騒音は、損失景観の局所幾何学と良好に一致している。
本研究では, SGD が極小からどのように脱落するかを考察し, 脱落方向が平坦な方向に沿って重要な成分を持つことを明らかにした。
- 参考スコア(独自算出の注目度): 9.064667124987068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empirical studies have demonstrated that the noise in stochastic gradient
descent (SGD) aligns favorably with the local geometry of loss landscape.
However, theoretical and quantitative explanations for this phenomenon remain
sparse. In this paper, we offer a comprehensive theoretical investigation into
the aforementioned {\em noise geometry} for over-parameterized linear (OLMs)
models and two-layer neural networks. We scrutinize both average and
directional alignments, paying special attention to how factors like sample
size and input data degeneracy affect the alignment strength. As a specific
application, we leverage our noise geometry characterizations to study how SGD
escapes from sharp minima, revealing that the escape direction has significant
components along flat directions. This is in stark contrast to GD, which
escapes only along the sharpest directions. To substantiate our theoretical
findings, both synthetic and real-world experiments are provided.
- Abstract(参考訳): 確率勾配降下(SGD)の雑音は、損失景観の局所的幾何学と良好に一致していることを示す実証的研究がある。
しかし、この現象の理論的、定量的な説明はいまだに少ない。
本稿では、超パラメータ線形(olms)モデルと2層ニューラルネットワークに対する上述の「emノイズ幾何」に関する包括的理論的検討を行う。
平均的および方向的アライメントを精査し,サンプルサイズや入力データ縮退がアライメント強度に及ぼす影響に特に注意した。
特定の応用として、SGDがいかに鋭い最小値から脱出するかを研究するためにノイズ幾何学的特徴を活用し、逃走方向が平坦な方向に沿って重要な成分を持つことを明らかにする。
これは、最も鋭い方向に沿ってのみ逃げるGDとは対照的である。
理論的知見を裏付けるために, 合成実験と実世界の実験の両方が提供される。
関連論文リスト
- Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - Per-Example Gradient Regularization Improves Learning Signals from Noisy
Data [25.646054298195434]
実験的な証拠は、勾配正則化技術は、ノイズの多い摂動に対するディープラーニングモデルの堅牢性を著しく向上させることができることを示唆している。
本稿では,騒音摂動に対する試験誤差とロバスト性の両方を改善することの有効性を理論的に示す。
解析の結果,PEGRはパターン学習の分散をペナルティ化し,学習データからの雑音の記憶を効果的に抑制することがわかった。
論文 参考訳(メタデータ) (2023-03-31T10:08:23Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Quasi-potential theory for escape problem: Quantitative sharpness effect
on SGD's escape from local minima [10.990447273771592]
本研究では,緩やかな勾配降下(SGD)アルゴリズムに関する定量的理論を開発する。
ノイズニューラルネットワークにおける損失面のシャープさの影響について検討する。
論文 参考訳(メタデータ) (2021-11-07T05:00:35Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z) - Fractional Underdamped Langevin Dynamics: Retargeting SGD with Momentum
under Heavy-Tailed Gradient Noise [39.9241638707715]
FULDは, 深層学習における役割において, 自然的, エレガントな手法と類似性があることが示唆された。
論文 参考訳(メタデータ) (2020-02-13T18:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。