論文の概要: Bias-Variance Trade-off for Clipped Stochastic First-Order Methods: From Bounded Variance to Infinite Mean
- arxiv url: http://arxiv.org/abs/2512.14686v1
- Date: Tue, 16 Dec 2025 18:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.840651
- Title: Bias-Variance Trade-off for Clipped Stochastic First-Order Methods: From Bounded Variance to Infinite Mean
- Title(参考訳): 閉確率的一階法におけるバイアス分散トレードオフ:境界変数から無限平均へ
- Authors: Chuan He,
- Abstract要約: オラクル一階法(英: Oracle first-order method, SFOMs)は、重み付け勾配を制御するための重要な手法である。
本報告では, 終末指数$in(0,2]$の雑音に対して, 有界な雑音から無限平均の雑音までの範囲をカバーしている。
ノイズテールの対称性が制御された場合, カットされたSFOMは重み付きノイズの存在下での複雑性保証を向上することを示す。
- 参考スコア(独自算出の注目度): 1.0064470833375987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic optimization is fundamental to modern machine learning. Recent research has extended the study of stochastic first-order methods (SFOMs) from light-tailed to heavy-tailed noise, which frequently arises in practice, with clipping emerging as a key technique for controlling heavy-tailed gradients. Extensive theoretical advances have further shown that the oracle complexity of SFOMs depends on the tail index $α$ of the noise. Nonetheless, existing complexity results often cover only the case $α\in (1,2]$, that is, the regime where the noise has a finite mean, while the complexity bounds tend to infinity as $α$ approaches $1$. This paper tackles the general case of noise with tail index $α\in(0,2]$, covering regimes ranging from noise with bounded variance to noise with an infinite mean, where the latter case has been scarcely studied. Through a novel analysis of the bias-variance trade-off in gradient clipping, we show that when a symmetry measure of the noise tail is controlled, clipped SFOMs achieve improved complexity guarantees in the presence of heavy-tailed noise for any tail index $α\in (0,2]$. Our analysis of the bias-variance trade-off not only yields new unified complexity guarantees for clipped SFOMs across this full range of tail indices, but is also straightforward to apply and can be combined with classical analyses under light-tailed noise to establish oracle complexity guarantees under heavy-tailed noise. Finally, numerical experiments validate our theoretical findings.
- Abstract(参考訳): 確率最適化は現代の機械学習の基本である。
最近の研究は、確率的一階法(SFOMs)の研究を、軽い尾の音から重い尾の雑音へと拡張し、重尾の勾配を制御する重要な技術としてクリッピングが出現している。
広範な理論的進歩により、SFOMのオラクルの複雑さはノイズのテールインデックス$α$に依存することが示されている。
にもかかわらず、既存の複雑さの結果はしばしば$α\in (1,2]$という場合のみをカバーし、すなわちノイズが有限平均を持つ体制である一方、複雑性境界は$α$が1ドルに近づくにつれて無限大になる傾向にある。
本論文は, 終末指数$α\in(0,2]$の雑音に対して, 有界な雑音から無限平均の雑音までの範囲をカバーし, 後者の研究はほとんど行われていない。
勾配クリッピングにおけるバイアス分散トレードオフの新たな解析を通して, ノイズテールの対称性測定が制御されると, カットされたSFOMは, 任意のテールインデックス$α\in (0,2]$に対して, 重み付きノイズの存在下での複雑性保証を向上することを示した。
このバイアス分散トレードオフを解析することで、切断されたSFOMに対して、この全範囲にわたる新しい統一された複雑性保証が得られるだけでなく、適用が容易であり、光尾ノイズ下での古典的な分析と組み合わせることで、重尾ノイズ下でのオラクルの複雑性保証を確立することができる。
最後に,我々の理論的知見を数値実験により検証した。
関連論文リスト
- Second-order Optimization under Heavy-Tailed Noise: Hessian Clipping and Sample Complexity Limits [53.773695219320125]
重み付き雑音下での2階最適化の理論的理解に向けて第一歩を踏み出す。
勾配とヘッセン切断に基づく新しいアルゴリズムを導入し、基本限界にほぼ一致する高い確率上の境界を証明した。
論文 参考訳(メタデータ) (2025-10-12T16:36:54Z) - Stochastic Weakly Convex Optimization Under Heavy-Tailed Noises [55.43924214633558]
本稿では,サブワイブルノイズとSsBCノイズの2種類のノイズに着目した。
これら2つのノイズ仮定の下では、凸最適化と滑らかな最適化の文脈において、SFOMの不規則および高確率収束が研究されている。
論文 参考訳(メタデータ) (2025-07-17T16:48:45Z) - Convergence of Clipped-SGD for Convex $(L_0,L_1)$-Smooth Optimization with Heavy-Tailed Noise [65.40001744848615]
Clip-SGDのようなクリッピングを持つ一階法は、$(L_$1)$-smoothnessの仮定の下でSGDよりも強い収束保証を示す。
Clip-SGD の高確率収束バウンダリを凸 $(L_$1)$-smooth の重み付き雑音による最適化に適用した最初の高確率収束バウンダリを確立する。
論文 参考訳(メタデータ) (2025-05-27T07:23:42Z) - Nonlinear Stochastic Gradient Descent and Heavy-tailed Noise: A Unified Framework and High-probability Guarantees [56.80920351680438]
本研究では,重音の存在下でのオンライン学習における高確率収束について検討する。
ノイズモーメントを仮定することなく、幅広い種類の非線形性を保証する。
論文 参考訳(メタデータ) (2024-10-17T18:25:28Z) - Sample-Optimal PAC Learning of Halfspaces with Malicious Noise [4.8728183994912415]
Valiant(1985)の悪意のあるノイズの存在下で$mathRd$の半空間の効率的なPAC学習を研究します。
Awasthi et alのアルゴリズムのための新しい分析を提示します。
そして、ほぼ最適に近いサンプル複雑性を$tildeo(d)$という値で達成できることを示します。
Bbbshoutyetal (2002) のより一般的で強力なノイズモデルにアルゴリズムと解析を拡張し、ほぼ最適なノイズ耐性とサンプルの複雑さを時間内に達成可能であることを示す。
論文 参考訳(メタデータ) (2021-02-11T20:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。