論文の概要: Why is Normalization Preferred? A Worst-Case Complexity Theory for Stochastically Preconditioned SGD under Heavy-Tailed Noise
- arxiv url: http://arxiv.org/abs/2602.13413v1
- Date: Fri, 13 Feb 2026 19:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.021302
- Title: Why is Normalization Preferred? A Worst-Case Complexity Theory for Stochastically Preconditioned SGD under Heavy-Tailed Noise
- Title(参考訳): なぜ正規化が優先されるのか?重音下での確率的プレコンディショニングSGDの最悪のケース複素性理論
- Authors: Yuchen Fang, James Demmel, Javad Lavaei,
- Abstract要約: 不等式事前条件勾配降下(SPSGD)に対する最悪のケース複雑性理論を開発する。
正規化は問題パラメータが未知の場合には$mathcalO(T-fracp-13p-2)$,$mathcalO(T-fracp-12p)$で1次定常点への収束を保証する。
対照的に、プリコンディショナーと勾配推定との統計的依存により、クリッピングが最悪の場合に収束しないことが証明される。
- 参考スコア(独自算出の注目度): 17.899443444882888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We develop a worst-case complexity theory for stochastically preconditioned stochastic gradient descent (SPSGD) and its accelerated variants under heavy-tailed noise, a setting that encompasses widely used adaptive methods such as Adam, RMSProp, and Shampoo. We assume the stochastic gradient noise has a finite $p$-th moment for some $p \in (1,2]$, and measure convergence after $T$ iterations. While clipping and normalization are parallel tools for stabilizing training of SGD under heavy-tailed noise, there is a fundamental separation in their worst-case properties in stochastically preconditioned settings. We demonstrate that normalization guarantees convergence to a first-order stationary point at rate $\mathcal{O}(T^{-\frac{p-1}{3p-2}})$ when problem parameters are known, and $\mathcal{O}(T^{-\frac{p-1}{2p}})$ when problem parameters are unknown, matching the optimal rates for normalized SGD, respectively. In contrast, we prove that clipping may fail to converge in the worst case due to the statistical dependence between the stochastic preconditioner and the gradient estimates. To enable the analysis, we develop a novel vector-valued Burkholder-type inequality that may be of independent interest. These results provide a theoretical explanation for the empirical preference for normalization over clipping in large-scale model training.
- Abstract(参考訳): 本研究では, 確率的に事前条件付き確率勾配勾配(SPSGD)と, 重み付き雑音下での加速変種について, アダム, RMSProp, シャンプーなどの適応的手法を包含した, 最悪の場合の複雑性理論を開発する。
確率勾配雑音は、ある$p \in (1,2]$に対して有限の$p$-番目のモーメントを持ち、$T$反復後の収束を測定すると仮定する。
クリッピングと正規化は重テールノイズ下でのSGDのトレーニングを安定化するための並列ツールであるが、確率的に事前条件付けされた設定では、最悪のケース特性に根本的な分離がある。
正規化は1次定常点への収束を$\mathcal{O}(T^{-\frac{p-1}{3p-2}})$,$\mathcal{O}(T^{-\frac{p-1}{2p}})$,$\mathcal{O}(T^{-\frac{p-1}{2p}})$で保証する。
対照的に、確率的プレコンディショナーと勾配推定との統計的依存により、クリッピングが最悪の場合に収束しないことが証明される。
この分析を可能にするために,独立性のあるベクトル値バークホルダー型不等式を開発した。
これらの結果は,大規模モデルトレーニングにおけるクリッピングよりも正規化を優先する経験的嗜好について理論的に説明できる。
関連論文リスト
- Can SGD Handle Heavy-Tailed Noise? [6.111519084375339]
Gradient Descent (SGD) は大規模最適化のための機械学習プロジェクトであるが、重尾雑音下での理論的挙動は理解されていない。
このような悪条件下でSGDが確実に成功できるかどうかを精査する。
論文 参考訳(メタデータ) (2025-08-06T20:09:41Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise [59.25598762373543]
重み付き雑音の存在下でのストリーミングデータにおける学習の精度保証について検討した。
解析的に、与えられた問題に対する設定の選択に$ta$を使うことができることを実証する。
論文 参考訳(メタデータ) (2023-10-28T18:53:41Z) - Empirical Risk Minimization with Shuffled SGD: A Primal-Dual Perspective
and Improved Bounds [12.699376765058137]
勾配降下法(SGD)は、おそらく現代の機械学習において最も一般的な最適化法である。
SGDを交換せずにサンプリングするSGDが分析されたのはごく最近のことだ。
データマトリックスに依存し、既存の境界によって予測されるものよりも決して悪くない、きめ細かい複雑性境界を証明します。
論文 参考訳(メタデータ) (2023-06-21T18:14:44Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Convergence Rates of Stochastic Gradient Descent under Infinite Noise
Variance [14.06947898164194]
ヘビーテールは様々なシナリオで勾配降下 (sgd) で現れる。
SGDの収束保証は、潜在的に無限のばらつきを持つ状態依存性および重尾ノイズ下で提供します。
その結果,SGDは無限に分散した重尾雑音下であっても,地球最適値に収束できることが示された。
論文 参考訳(メタデータ) (2021-02-20T13:45:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。