論文の概要: Flatness-Aware Stochastic Gradient Langevin Dynamics
- arxiv url: http://arxiv.org/abs/2510.02174v1
- Date: Thu, 02 Oct 2025 16:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.209755
- Title: Flatness-Aware Stochastic Gradient Langevin Dynamics
- Title(参考訳): 平坦性を考慮した確率勾配ランゲヴィンダイナミクス
- Authors: Stefano Bruno, Youngsik Hwang, Jaehyeon An, Sotirios Sabanis, Dong-Young Lim,
- Abstract要約: ディープラーニングアルゴリズムの一般化は、ロスランドスケープにおける平坦なミニマの追求に収束する。
グラディエント・ランゲヴィン・ダイナミクス(SGLD)は、そのような低トレース正規化目標を確立するバイアスを与えないことを示す。
- 参考スコア(独自算出の注目度): 8.884140046635268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization in deep learning is closely tied to the pursuit of flat minima in the loss landscape, yet classical Stochastic Gradient Langevin Dynamics (SGLD) offers no mechanism to bias its dynamics toward such low-curvature solutions. This work introduces Flatness-Aware Stochastic Gradient Langevin Dynamics (fSGLD), designed to efficiently and provably seek flat minima in high-dimensional nonconvex optimization problems. At each iteration, fSGLD uses the stochastic gradient evaluated at parameters perturbed by isotropic Gaussian noise, commonly referred to as Random Weight Perturbation (RWP), thereby optimizing a randomized-smoothing objective that implicitly captures curvature information. Leveraging these properties, we prove that the invariant measure of fSGLD stays close to a stationary measure concentrated on the global minimizers of a loss function regularized by the Hessian trace whenever the inverse temperature and the scale of random weight perturbation are properly coupled. This result provides a rigorous theoretical explanation for the benefits of random weight perturbation. In particular, we establish non-asymptotic convergence guarantees in Wasserstein distance with the best known rate and derive an excess-risk bound for the Hessian-trace regularized objective. Extensive experiments on noisy-label and large-scale vision tasks, in both training-from-scratch and fine-tuning settings, demonstrate that fSGLD achieves superior or comparable generalization and robustness to baseline algorithms while maintaining the computational cost of SGD, about half that of SAM. Hessian-spectrum analysis further confirms that fSGLD converges to significantly flatter minima.
- Abstract(参考訳): ディープラーニングの一般化は、損失ランドスケープにおける平坦なミニマの追求と密接に結びついているが、古典的確率勾配ランゲヴィンダイナミクス(SGLD)は、そのような低曲率解にその力学を偏らせるメカニズムを提供していない。
この研究は、高次元非凸最適化問題において、効率よくかつ確実に平坦な最小値を求めるように設計されたFlatness-Aware Stochastic Gradient Langevin Dynamics (fSGLD)を導入している。
それぞれのイテレーションにおいて、fSGLDは等方的ガウス雑音(RWP)によって摂動されるパラメータで評価される確率勾配を用いており、これによりランダム化された平滑な目的を最適化し、曲率情報を暗黙的にキャプチャする。
これらの特性を利用すると、fSGLDの不変測度は、逆温度とランダムウェイト摂動のスケールが適切に結合されたときに、ヘッセントレースによって正則化された損失関数の大域最小値に集中する定常測度に近づき続けることが証明される。
この結果は、ランダムウェイト摂動の利点に関する厳密な理論的説明を提供する。
特に、ワッサーシュタイン距離における非漸近収束保証を最もよく知られた速度で確立し、ヘッセン・トラキア正規化目的に対する余剰リスク境界を導出する。
SGDの計算コストをSAMの約半分に抑えながら、fSGLDがベースラインアルゴリズムよりも優れたあるいは同等の一般化と堅牢性を達成することを示す。
ヘシアンスペクトル分析により、fSGLDがかなり平坦なミニマに収束することを確認した。
関連論文リスト
- Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。
NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。
我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:54:53Z) - Computing the Variance of Shuffling Stochastic Gradient Algorithms via
Power Spectral Density Analysis [6.497816402045099]
理論上の利点を持つ勾配降下(SGD)の2つの一般的な選択肢は、ランダムリシャッフル(SGDRR)とシャッフルオンス(SGD-SO)である。
本研究では,SGD,SGDRR,SGD-SOの定常変動について検討した。
論文 参考訳(メタデータ) (2022-06-01T17:08:04Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - A Contour Stochastic Gradient Langevin Dynamics Algorithm for
Simulations of Multi-modal Distributions [17.14287157979558]
ビッグデータ統計学の学習のための適応重み付き勾配ランゲヴィン力学(SGLD)を提案する。
提案アルゴリズムは、CIFAR100を含むベンチマークデータセットで検証される。
論文 参考訳(メタデータ) (2020-10-19T19:20:47Z) - Non-Convex Optimization via Non-Reversible Stochastic Gradient Langevin
Dynamics [27.097121544378528]
グラディエント・ランゲヴィン・ダイナミクス (Gradient Langevin Dynamics, SGLD) は、非目的勾配を最適化する強力なアルゴリズムである。
NSGLDは非可逆拡散の離散化に基づいている。
論文 参考訳(メタデータ) (2020-04-06T17:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。