論文の概要: Convergence Analysis of Randomized Subspace Normalized SGD under Heavy-Tailed Noise
- arxiv url: http://arxiv.org/abs/2601.20399v2
- Date: Thu, 29 Jan 2026 11:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 14:13:20.057683
- Title: Convergence Analysis of Randomized Subspace Normalized SGD under Heavy-Tailed Noise
- Title(参考訳): 重音下におけるランダム化部分空間正規化SGDの収束解析
- Authors: Gaku Omiya, Pierre-Louis Poirion, Akiko Takeda,
- Abstract要約: ランダム化部分空間 SGD (RSSGD) はガウス雑音下での高確率収束を許容することを示す。
現代の機械学習における重み付き勾配の出現により動機付けられ、ランダム化された部分空間SGD(RSNSGD)を提案する。
その結果,RSNSGDは全オラクルよりも複雑度が高いことを示すとともに,全オラクルよりも複雑度が高いことを示す。
- 参考スコア(独自算出の注目度): 7.929096174084104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Randomized subspace methods reduce per-iteration cost; however, in nonconvex optimization, most analyses are expectation-based, and high-probability bounds remain scarce even under sub-Gaussian noise. We first prove that randomized subspace SGD (RS-SGD) admits a high-probability convergence bound under sub-Gaussian noise, achieving the same order of oracle complexity as prior in-expectation results. Motivated by the prevalence of heavy-tailed gradients in modern machine learning, we then propose randomized subspace normalized SGD (RS-NSGD), which integrates direction normalization into subspace updates. Assuming the noise has bounded $p$-th moments, we establish both in-expectation and high-probability convergence guarantees, and show that RS-NSGD can achieve better oracle complexity than full-dimensional normalized SGD.
- Abstract(参考訳): ランダム化された部分空間法は、氷点当たりのコストを低減させるが、非凸最適化においては、ほとんどの分析は期待に基づくものであり、ガウス音下においても高い確率境界は乏しい。
我々はまず、ランダム化された部分空間 SGD (RS-SGD) が、ガウス雑音の下での高確率収束を認め、事前の観測結果と同等のオラクル複雑性を達成することを証明した。
現代の機械学習における重み付き勾配の出現に触発され、ランダム化されたサブスペース正規化SGD(RS-NSGD)を提案し、方向正規化をサブスペース更新に統合する。
ノイズが$p$-thの時間に制限されていると仮定すると、観測内収束保証と高確率収束保証の両方を確立し、RS-NSGDがフル次元正規化SGDよりも優れたオラクル複雑性を達成できることを示す。
関連論文リスト
- Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - On Convergence of Incremental Gradient for Non-Convex Smooth Functions [63.51187646914962]
機械学習とネットワーク最適化では、ミスの数と優れたキャッシュを最小化するため、シャッフルSGDのようなアルゴリズムが人気である。
本稿では任意のデータ順序付けによる収束特性SGDアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2023-05-30T17:47:27Z) - Utilising the CLT Structure in Stochastic Gradient based Sampling :
Improved Analysis and Faster Algorithms [14.174806471635403]
粒子ダイナミック(IPD)に対するグラディエント・ランゲヴィン・ダイナミクス(SGLD)やランダムバッチ法(RBM)などのサンプリングアルゴリズムの近似を考察する。
近似によって生じる雑音は中央極限定理(CLT)によりほぼガウス的であるが、ブラウン運動はまさにガウス的である。
この構造を利用して拡散過程内の近似誤差を吸収し、これらのアルゴリズムの収束保証を改善する。
論文 参考訳(メタデータ) (2022-06-08T10:17:40Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。