論文の概要: Gradient Clipping Improves AdaGrad when the Noise Is Heavy-Tailed
- arxiv url: http://arxiv.org/abs/2406.04443v1
- Date: Thu, 6 Jun 2024 18:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:17:07.908527
- Title: Gradient Clipping Improves AdaGrad when the Noise Is Heavy-Tailed
- Title(参考訳): AdaGradの騒音が重くなるとグラディエント・クリッピングが改善
- Authors: Savelii Chezhegov, Yaroslav Klyukin, Andrei Semenov, Aleksandr Beznosikov, Alexander Gasnikov, Samuel Horváth, Martin Takáč, Eduard Gorbunov,
- Abstract要約: AdaGradやAdamのような適応的なステップを持つメソッドは、現代のディープラーニングモデルのトレーニングに不可欠です。
AdaGradはノイズが狭い場合, 高い確率収束性を有することを示す。
我々は、Clip-RAD RedaGrad with Delayと呼ばれるAdaGradの新バージョンを提案する。
- 参考スコア(独自算出の注目度): 83.8485684139678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods with adaptive stepsizes, such as AdaGrad and Adam, are essential for training modern Deep Learning models, especially Large Language Models. Typically, the noise in the stochastic gradients is heavy-tailed for the later ones. Gradient clipping provably helps to achieve good high-probability convergence for such noises. However, despite the similarity between AdaGrad/Adam and Clip-SGD, the high-probability convergence of AdaGrad/Adam has not been studied in this case. In this work, we prove that AdaGrad (and its delayed version) can have provably bad high-probability convergence if the noise is heavy-tailed. To fix this issue, we propose a new version of AdaGrad called Clip-RAdaGradD (Clipped Reweighted AdaGrad with Delay) and prove its high-probability convergence bounds with polylogarithmic dependence on the confidence level for smooth convex/non-convex stochastic optimization with heavy-tailed noise. Our empirical evaluations, including NLP model fine-tuning, highlight the superiority of clipped versions of AdaGrad/Adam in handling the heavy-tailed noise.
- Abstract(参考訳): AdaGradやAdamのような適応的なステップサイズを持つ手法は、現代のディープラーニングモデル、特に大規模言語モデルのトレーニングに不可欠である。
典型的には、確率勾配のノイズは後続の騒音に対して重くなる。
グラディエントクリッピングは、そのようなノイズに対して良好な高確率収束を実現するのに有効である。
しかし、AdaGrad/AdamとClip-SGDの類似性にもかかわらず、AdaGrad/Adamの高確率収束性は研究されていない。
本研究では、AdaGrad(およびその遅延バージョン)が、ノイズが重く抑えられた場合、確実に高い確率収束性を持つことを示す。
この問題を解決するために,Clip-RAdaGradD (Clipped Reweighted AdaGrad with Delay) と呼ばれるAdaGradの新バージョンを提案する。
NLPモデルファインチューニングを含む経験的評価は、重み付きノイズに対するAdaGrad/Adamのクリップ化バージョンの優位性を強調した。
関連論文リスト
- From Gradient Clipping to Normalization for Heavy Tailed SGD [19.369399536643773]
最近の実証的な証拠は、機械学習の応用が重尾ノイズを伴い、実際に有界分散の標準的な仮定に挑戦していることを示している。
本稿では, 勾配依存型雑音収束問題において, テール雑音下での厳密性を実現することができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:01Z) - Rethinking the Principle of Gradient Smooth Methods in Model Explanation [2.6819730646697972]
グラディエント・スムーシング(Gradient Smoothing)は、勾配モデル記述法における雑音の低減に有効な手法である。
これらの知見に基づいて適応的な勾配平滑化手法AdaptGradを提案する。
論文 参考訳(メタデータ) (2024-10-10T08:24:27Z) - On Convergence of Adam for Stochastic Optimization under Relaxed
Assumptions [4.9495085874952895]
Adaptive Momentum Estimation (Adam)アルゴリズムは、様々なディープラーニングタスクにおいて非常に効果的である。
この一般的な雑音モデルの下で,Adamは高い反復率で定常点のばらつきを見いだせることを示す。
論文 参考訳(メタデータ) (2024-02-06T13:19:26Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - High Probability Convergence of Adam Under Unbounded Gradients and
Affine Variance Noise [4.9495085874952895]
我々はAdamが高い確率で定常点に収束できることを示し、$mathcalOleft(rm poly(log T)/sqrtTright)$を座標ワイドな「アフィン」ノイズ分散の下で表す。
また、Adamの閉包は$mathcalOleft(rm poly(left T)right)$の順序でノイズレベルに適応していることも明らかにされている。
論文 参考訳(メタデータ) (2023-11-03T15:55:53Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - SGD with AdaGrad Stepsizes: Full Adaptivity with High Probability to
Unknown Parameters, Unbounded Gradients and Affine Variance [33.593203156666746]
本稿では,AdaGradが一階最適化のための適応(自己調整)手法を段階化することを示す。
低ノイズと高レジの両方で、低ノイズと高レジの両方で急激な収束率を見出す。
論文 参考訳(メタデータ) (2023-02-17T09:46:08Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - High Probability Bounds for a Class of Nonconvex Algorithms with AdaGrad
Stepsize [55.0090961425708]
本研究では,AdaGradのスムーズな非確率問題に対する簡易な高確率解析法を提案する。
我々はモジュラーな方法で解析を行い、決定論的設定において相補的な$mathcal O (1 / TT)$収束率を得る。
我々の知る限りでは、これは真に適応的なスキームを持つAdaGradにとって初めての高い確率である。
論文 参考訳(メタデータ) (2022-04-06T13:50:33Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。