論文の概要: Convergence of Clipped-SGD for Convex $(L_0,L_1)$-Smooth Optimization with Heavy-Tailed Noise
- arxiv url: http://arxiv.org/abs/2505.20817v1
- Date: Tue, 27 May 2025 07:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.472738
- Title: Convergence of Clipped-SGD for Convex $(L_0,L_1)$-Smooth Optimization with Heavy-Tailed Noise
- Title(参考訳): 重音を用いた凸$(L_0,L_1)$-Smooth最適化におけるClipped-SGDの収束性
- Authors: Savelii Chezhegov, Aleksandr Beznosikov, Samuel Horváth, Eduard Gorbunov,
- Abstract要約: Clip-SGDのようなクリッピングを持つ一階法は、$(L_$1)$-smoothnessの仮定の下でSGDよりも強い収束保証を示す。
Clip-SGD の高確率収束バウンダリを凸 $(L_$1)$-smooth の重み付き雑音による最適化に適用した最初の高確率収束バウンダリを確立する。
- 参考スコア(独自算出の注目度): 60.17850744118546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient clipping is a widely used technique in Machine Learning and Deep Learning (DL), known for its effectiveness in mitigating the impact of heavy-tailed noise, which frequently arises in the training of large language models. Additionally, first-order methods with clipping, such as Clip-SGD, exhibit stronger convergence guarantees than SGD under the $(L_0,L_1)$-smoothness assumption, a property observed in many DL tasks. However, the high-probability convergence of Clip-SGD under both assumptions -- heavy-tailed noise and $(L_0,L_1)$-smoothness -- has not been fully addressed in the literature. In this paper, we bridge this critical gap by establishing the first high-probability convergence bounds for Clip-SGD applied to convex $(L_0,L_1)$-smooth optimization with heavy-tailed noise. Our analysis extends prior results by recovering known bounds for the deterministic case and the stochastic setting with $L_1 = 0$ as special cases. Notably, our rates avoid exponentially large factors and do not rely on restrictive sub-Gaussian noise assumptions, significantly broadening the applicability of gradient clipping.
- Abstract(参考訳): グラディエント・クリッピング(Gradient clipping)は、機械学習とディープラーニング(DL)において広く使われているテクニックであり、大きな言語モデルのトレーニングにおいてしばしば発生する重尾ノイズの影響を緩和する効果で知られている。
さらに、Clip-SGDのようなクリッピングを用いた一階法は、多くのDLタスクで観測される特性である$(L_0,L_1)$-smoothnessの仮定の下でSGDよりも強い収束保証を示す。
しかし,Clip-SGDの重み付き雑音と(L_0,L_1)$-smoothnessという2つの仮定の下での高確率収束は,本論文では十分に解決されていない。
本稿では,Clip-SGD に対する第1次高確率収束境界を凸 $(L_0,L_1)$-smooth 最適化に適用することにより,この臨界ギャップを橋渡しする。
我々の分析は、決定論的ケースの既知の境界と、特別なケースとして$L_1 = 0$の確率的設定を復元することによって、先行結果を拡張した。
特に、我々の速度は指数関数的に大きな要因を回避し、制約的な準ガウス雑音の仮定に頼らず、勾配クリッピングの適用性を著しく拡大する。
関連論文リスト
- Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - From Gradient Clipping to Normalization for Heavy Tailed SGD [19.369399536643773]
最近の実証的な証拠は、機械学習の応用が重尾ノイズを伴い、実際に有界分散の標準的な仮定に挑戦していることを示している。
本稿では, 勾配依存型雑音収束問題において, テール雑音下での厳密性を実現することができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:01Z) - High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise [59.25598762373543]
重み付き雑音の存在下でのストリーミングデータにおける学習の精度保証について検討した。
解析的に、与えられた問題に対する設定の選択に$ta$を使うことができることを実証する。
論文 参考訳(メタデータ) (2023-10-28T18:53:41Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。