論文の概要: Global Dynamics of Heavy-Tailed SGDs in Nonconvex Loss Landscape: Characterization and Control
- arxiv url: http://arxiv.org/abs/2510.20905v1
- Date: Thu, 23 Oct 2025 18:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.289967
- Title: Global Dynamics of Heavy-Tailed SGDs in Nonconvex Loss Landscape: Characterization and Control
- Title(参考訳): 非凸ロスランドスケープにおける重管型SGDのグローバルダイナミクス:特性と制御
- Authors: Xingyu Wang, Chang-Han Rhee,
- Abstract要約: 勾配降下(SGD)とその変種は現代の人工知能を可能にする。
SGDは、ロスランドスケープの急激な局所的なミニマを回避できる好奇心を持っていると広く信じられている。
我々は、深層学習において驚くべき現象を明らかにし、訓練期間中に重く尾のノイズを注入し、取り除くことにより、SGDはシャープ・ミニマをほぼ完全に回避することができる。
- 参考スコア(独自算出の注目度): 7.665296591586615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic gradient descent (SGD) and its variants enable modern artificial intelligence. However, theoretical understanding lags far behind their empirical success. It is widely believed that SGD has a curious ability to avoid sharp local minima in the loss landscape, which are associated with poor generalization. To unravel this mystery and further enhance such capability of SGDs, it is imperative to go beyond the traditional local convergence analysis and obtain a comprehensive understanding of SGDs' global dynamics. In this paper, we develop a set of technical machinery based on the recent large deviations and metastability analysis in Wang and Rhee (2023) and obtain sharp characterization of the global dynamics of heavy-tailed SGDs. In particular, we reveal a fascinating phenomenon in deep learning: by injecting and then truncating heavy-tailed noises during the training phase, SGD can almost completely avoid sharp minima and achieve better generalization performance for the test data. Simulation and deep learning experiments confirm our theoretical prediction that heavy-tailed SGD with gradient clipping finds local minima with a more flat geometry and achieves better generalization performance.
- Abstract(参考訳): 確率勾配降下(SGD)とその変種は現代の人工知能を可能にする。
しかし、理論的な理解は経験的な成功よりもはるかに遅れている。
SGDは、低一般化と関連するロスランドスケープの急激な局所的ミニマを回避できる好奇心を持っていると広く信じられている。
この謎を解き明かし、SGDのそのような能力を強化するためには、従来の局所収束解析を超越し、SGDのグローバルダイナミクスの包括的理解を得ることが不可欠である。
本稿では, Wang and Rhee (2023) における最近の大規模偏差と転移性解析に基づく一連の技術機械を開発し, 重鎖SGDのグローバルダイナミクスの鋭い評価を行う。
特に, 深層学習において, SGD は, 訓練期間中にヘビーテールノイズを注入し, 脱落させることで, シャープ・ミニマをほぼ完全に回避し, テストデータに対するより優れた一般化性能を実現することができる。
シミュレーションと深層学習実験により,勾配クリッピングによる重み付きSGDはより平坦な形状の局所最小値を求め,より一般化性能が向上する,という理論予測が得られた。
関連論文リスト
- On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - The Optimality of (Accelerated) SGD for High-Dimensional Quadratic Optimization [4.7256945641654164]
勾配降下(SGD)は機械学習、特にニューラルネットワークトレーニングにおいて広く使われているアルゴリズムである。
正準2次最適化や線形回帰のSGDに関する最近の研究は、適切な高次元設定で十分に一般化できることを示している。
本稿では,ステップサイズスケジュールと運動量指数の2つの基本成分を持つSGDについて検討する。
論文 参考訳(メタデータ) (2024-09-15T14:20:03Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Low-Precision Stochastic Gradient Langevin Dynamics [70.69923368584588]
本稿では,低精度のグラジエントランゲヴィンダイナミクスを初めて研究し,性能を犠牲にすることなくコストを大幅に削減できることを示した。
本研究では,各更新ステップの分散を保存したSGLDの新しい量子化関数を開発する。
我々は,低精度のSGLDが,様々なディープラーニングタスクにおいて8ビットしか持たない完全精度のSGLDに匹敵する性能を実現することを実証した。
論文 参考訳(メタデータ) (2022-06-20T17:25:41Z) - Implicit Regularization or Implicit Conditioning? Exact Risk
Trajectories of SGD in High Dimensions [26.782342518986503]
勾配降下(SGD)は現代の機械学習の柱であり、様々な問題に対するゴート最適化アルゴリズムとして機能している。
HSGD形式をストリーミングSGDに適合させる方法を示し、ストリーミングSGDと比較してマルチパスSGDの過大なリスクを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-06-15T02:32:26Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Eliminating Sharp Minima from SGD with Truncated Heavy-tailed Noise [39.27123042800951]
多くのディープラーニングタスクにおいて,重み付き勾配雑音の証拠が報告された。
切断したSGDは訓練軌道から局所的に鋭いミニマを効果的に除去できることを示す。
論文 参考訳(メタデータ) (2021-02-08T16:03:49Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。