論文の概要: Large Spikes in Stochastic Gradient Descent: A Large-Deviations View
- arxiv url: http://arxiv.org/abs/2603.10079v1
- Date: Tue, 10 Mar 2026 09:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.61793
- Title: Large Spikes in Stochastic Gradient Descent: A Large-Deviations View
- Title(参考訳): 確率的グラディエントDescentにおける大きなスパイク:大きな視点
- Authors: Benjamin Gess, Daniel Heydecker,
- Abstract要約: 我々はNTKスケーリングにおける浅い完全接続ネットワークのSGDトレーニングを分析し、カタパルト相の定量的理論を提供する。
カーネルのみに依存する明示的な関数$G$,学習率$$およびデータによって,SGDは高い確率でNTK平坦な大きなスパイクを生成する。
- 参考スコア(独自算出の注目度): 1.2031796234206138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyse SGD training of a shallow, fully connected network in the NTK scaling and provide a quantitative theory of the catapult phase. We identify an explicit criterion separating two behaviours: When an explicit function $G$, depending only on the kernel, learning rate $η$ and data, is positive, SGD produces large NTK-flattening spikes with high probability; when $G<0$, their probability decays like $(n/η)^{-\vartheta/2}$, for an explicitly characterised $\vartheta\in (0,\infty)$. This yields a concrete parameter-dependent explanation for why such spikes may still be observed at practical widths.
- Abstract(参考訳): 我々はNTKスケーリングにおける浅い完全接続ネットワークのSGDトレーニングを分析し、カタパルト相の定量的理論を提供する。
明示的な関数 $G$ がカーネルのみに依存するとき、学習レート $η$ とデータが正のとき、SGD は高い確率で大きな NTK 平坦なスパイクを生成する。
このことは、なぜそのようなスパイクが実際的な幅で観測されるのかという具体的なパラメータ依存の説明をもたらす。
関連論文リスト
- Tight Long-Term Tail Decay of (Clipped) SGD in Non-Convex Optimization [62.48819955422706]
大規模偏差理論のレンズによるSGD法における長期のテール崩壊について検討する。
我々は、テールが以前よりもはるかに早く崩壊する体制を発見し、個々のランニングに対してより強力な長期保証を提供する。
論文 参考訳(メタデータ) (2026-02-05T13:41:13Z) - Can SGD Handle Heavy-Tailed Noise? [6.111519084375339]
Gradient Descent (SGD) は大規模最適化のための機械学習プロジェクトであるが、重尾雑音下での理論的挙動は理解されていない。
このような悪条件下でSGDが確実に成功できるかどうかを精査する。
論文 参考訳(メタデータ) (2025-08-06T20:09:41Z) - Convergence of Clipped-SGD for Convex $(L_0,L_1)$-Smooth Optimization with Heavy-Tailed Noise [65.40001744848615]
Clip-SGDのようなクリッピングを持つ一階法は、$(L_$1)$-smoothnessの仮定の下でSGDよりも強い収束保証を示す。
Clip-SGD の高確率収束バウンダリを凸 $(L_$1)$-smooth の重み付き雑音による最適化に適用した最初の高確率収束バウンダリを確立する。
論文 参考訳(メタデータ) (2025-05-27T07:23:42Z) - Edge of Stochastic Stability: Revisiting the Edge of Stability for SGD [0.0]
我々は,ミニバッチ勾配降下(SGD)列車が異なる体制で「エッジ・オブ・安定性(EoSS)」と呼ばれることを示す。
この体制では、2/eta$で安定化されるのは*バッチ・シャープネス* であり、これは対応する勾配に沿ったミニバッチ・ヘッセンの方向曲率である。
その結果、Batch Sharpnessよりも一般的に小さい$lambda_max$が抑制され、より小さなバッチとより大きなステップサイズがよりフラットなミニマを好むという長年の経験的な観察と一致している。
論文 参考訳(メタデータ) (2024-12-29T18:59:01Z) - High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise [59.25598762373543]
重み付き雑音の存在下でのストリーミングデータにおける学習の精度保証について検討した。
解析的に、与えられた問題に対する設定の選択に$ta$を使うことができることを実証する。
論文 参考訳(メタデータ) (2023-10-28T18:53:41Z) - Lower Generalization Bounds for GD and SGD in Smooth Stochastic Convex
Optimization [9.019243171993553]
トレーニングステップ$T$とStep-size$eta$は、滑らかな凸最適化(SCO)問題の認定に影響を与える可能性がある。
まず、グラディエントDescent(GD)とグラディエントDescent(SGD)の厳密な過剰リスク低境界を提供する。
近年の作業は、より良い速度で達成できるが、トレーニング時間が長い場合には改善が減少する。
論文 参考訳(メタデータ) (2023-03-19T20:24:33Z) - On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文 参考訳(メタデータ) (2020-06-19T14:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。