論文の概要: Convergence Analysis of Randomized Subspace Normalized SGD under Heavy-Tailed Noise
- arxiv url: http://arxiv.org/abs/2601.20399v2
- Date: Thu, 29 Jan 2026 11:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 14:13:20.057683
- Title: Convergence Analysis of Randomized Subspace Normalized SGD under Heavy-Tailed Noise
- Title(参考訳): 重音下におけるランダム化部分空間正規化SGDの収束解析
- Authors: Gaku Omiya, Pierre-Louis Poirion, Akiko Takeda,
- Abstract要約: ランダム化部分空間 SGD (RSSGD) はガウス雑音下での高確率収束を許容することを示す。
現代の機械学習における重み付き勾配の出現により動機付けられ、ランダム化された部分空間SGD(RSNSGD)を提案する。
その結果,RSNSGDは全オラクルよりも複雑度が高いことを示すとともに,全オラクルよりも複雑度が高いことを示す。
- 参考スコア(独自算出の注目度): 7.929096174084104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Randomized subspace methods reduce per-iteration cost; however, in nonconvex optimization, most analyses are expectation-based, and high-probability bounds remain scarce even under sub-Gaussian noise. We first prove that randomized subspace SGD (RS-SGD) admits a high-probability convergence bound under sub-Gaussian noise, achieving the same order of oracle complexity as prior in-expectation results. Motivated by the prevalence of heavy-tailed gradients in modern machine learning, we then propose randomized subspace normalized SGD (RS-NSGD), which integrates direction normalization into subspace updates. Assuming the noise has bounded $p$-th moments, we establish both in-expectation and high-probability convergence guarantees, and show that RS-NSGD can achieve better oracle complexity than full-dimensional normalized SGD.
- Abstract(参考訳): ランダム化された部分空間法は、氷点当たりのコストを低減させるが、非凸最適化においては、ほとんどの分析は期待に基づくものであり、ガウス音下においても高い確率境界は乏しい。
我々はまず、ランダム化された部分空間 SGD (RS-SGD) が、ガウス雑音の下での高確率収束を認め、事前の観測結果と同等のオラクル複雑性を達成することを証明した。
現代の機械学習における重み付き勾配の出現に触発され、ランダム化されたサブスペース正規化SGD(RS-NSGD)を提案し、方向正規化をサブスペース更新に統合する。
ノイズが$p$-thの時間に制限されていると仮定すると、観測内収束保証と高確率収束保証の両方を確立し、RS-NSGDがフル次元正規化SGDよりも優れたオラクル複雑性を達成できることを示す。
関連論文リスト
- Can SGD Handle Heavy-Tailed Noise? [6.111519084375339]
Gradient Descent (SGD) は大規模最適化のための機械学習プロジェクトであるが、重尾雑音下での理論的挙動は理解されていない。
このような悪条件下でSGDが確実に成功できるかどうかを精査する。
論文 参考訳(メタデータ) (2025-08-06T20:09:41Z) - Differentially Private Clipped-SGD: High-Probability Convergence with Arbitrary Clipping Level [18.723330586196997]
本研究では,DPのクリッピングレベルが固定された最初の高確率収束解析法を提案する。
提案手法は,固定クリッピングレベルにおいて,既存の方法よりも高速に近傍最適解に収束することを示す。
この地区は、DPが導入した騒音とバランスが取れており、収束速度とプライバシー保証のトレードオフが洗練されている。
論文 参考訳(メタデータ) (2025-07-31T12:48:29Z) - Optimal High-probability Convergence of Nonlinear SGD under Heavy-tailed Noise via Symmetrization [50.49466204159458]
雑音対称性に基づく2つの新しい推定器を提案する。
よりシャープな分析と改善されたレートを提供します。
モーメントと対称雑音を仮定する作業と比較して、よりシャープな解析と改善率を提供する。
論文 参考訳(メタデータ) (2025-07-12T00:31:13Z) - Demystifying SGD with Doubly Stochastic Gradients [13.033133586372612]
一般条件下では、独立なミニバッチとランダムリシャッフルを併用した2重SGDの収束特性を確立する。
ランダムリシャッフルによりサブサンプリングノイズの複雑性依存性が向上することが証明された。
論文 参考訳(メタデータ) (2024-06-03T01:13:19Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - On Convergence of Incremental Gradient for Non-Convex Smooth Functions [63.51187646914962]
機械学習とネットワーク最適化では、ミスの数と優れたキャッシュを最小化するため、シャッフルSGDのようなアルゴリズムが人気である。
本稿では任意のデータ順序付けによる収束特性SGDアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2023-05-30T17:47:27Z) - Utilising the CLT Structure in Stochastic Gradient based Sampling :
Improved Analysis and Faster Algorithms [14.174806471635403]
粒子ダイナミック(IPD)に対するグラディエント・ランゲヴィン・ダイナミクス(SGLD)やランダムバッチ法(RBM)などのサンプリングアルゴリズムの近似を考察する。
近似によって生じる雑音は中央極限定理(CLT)によりほぼガウス的であるが、ブラウン運動はまさにガウス的である。
この構造を利用して拡散過程内の近似誤差を吸収し、これらのアルゴリズムの収束保証を改善する。
論文 参考訳(メタデータ) (2022-06-08T10:17:40Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。