論文の概要: Revisiting Convergence of AdaGrad with Relaxed Assumptions
- arxiv url: http://arxiv.org/abs/2402.13794v2
- Date: Fri, 13 Sep 2024 13:28:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 23:37:02.473094
- Title: Revisiting Convergence of AdaGrad with Relaxed Assumptions
- Title(参考訳): AdaGradの緩和による収束性の再検討
- Authors: Yusu Hong, Junhong Lin,
- Abstract要約: 問題に対する AdaGrad の収束と運動量(特別の場合として AdaGrad をカバー)を再考する。
このモデルは、多くの実用的な応用において、サブソースを含む広い範囲のノイズを含む。
- 参考スコア(独自算出の注目度): 4.189643331553922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we revisit the convergence of AdaGrad with momentum (covering AdaGrad as a special case) on non-convex smooth optimization problems. We consider a general noise model where the noise magnitude is controlled by the function value gap together with the gradient magnitude. This model encompasses a broad range of noises including bounded noise, sub-Gaussian noise, affine variance noise and the expected smoothness, and it has been shown to be more realistic in many practical applications. Our analysis yields a probabilistic convergence rate which, under the general noise, could reach at (\tilde{\mathcal{O}}(1/\sqrt{T})). This rate does not rely on prior knowledge of problem-parameters and could accelerate to (\tilde{\mathcal{O}}(1/T)) where (T) denotes the total number iterations, when the noise parameters related to the function value gap and noise level are sufficiently small. The convergence rate thus matches the lower rate for stochastic first-order methods over non-convex smooth landscape up to logarithm terms [Arjevani et al., 2023]. We further derive a convergence bound for AdaGrad with mometum, considering the generalized smoothness where the local smoothness is controlled by a first-order function of the gradient norm.
- Abstract(参考訳): 本研究では,非凸な滑らかな最適化問題に対する AdaGrad の運動量(特別な場合として AdaGrad をカバー)との収束を再考する。
雑音の大きさを関数値ギャップによって制御する一般雑音モデルと、勾配等級について考察する。
このモデルは、有界雑音、準ガウス雑音、アフィン分散雑音、期待される滑らかさを含む幅広いノイズを含み、多くの実用的応用においてより現実的であることが示されている。
この解析により, 一般雑音下では (\tilde{\mathcal{O}}(1/\sqrt{T}) に到達できる確率収束率が得られる。
この速度は問題パラメータの事前の知識に依存しておらず、関数値ギャップとノイズレベルに関するノイズパラメータが十分に小さい場合、 (T) が総数の繰り返しを表すような (\tilde{\mathcal{O}}(1/T)) に加速することができる。
したがって収束率は非凸な滑らかな風景上の確率的一階法の低い速度に一致する[Arjevani et al , 2023]。
さらに、局所な滑らかさが勾配ノルムの1次関数によって制御される一般化された滑らかさを考慮し、AdaGrad とモエタムとの収束を導出する。
関連論文リスト
- From Gradient Clipping to Normalization for Heavy Tailed SGD [19.369399536643773]
最近の実証的な証拠は、機械学習の応用が重尾ノイズを伴い、実際に有界分散の標準的な仮定に挑戦していることを示している。
本稿では, 勾配依存型雑音収束問題において, テール雑音下での厳密性を実現することができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:01Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - High Probability Convergence of Adam Under Unbounded Gradients and
Affine Variance Noise [4.9495085874952895]
我々はAdamが高い確率で定常点に収束できることを示し、$mathcalOleft(rm poly(log T)/sqrtTright)$を座標ワイドな「アフィン」ノイズ分散の下で表す。
また、Adamの閉包は$mathcalOleft(rm poly(left T)right)$の順序でノイズレベルに適応していることも明らかにされている。
論文 参考訳(メタデータ) (2023-11-03T15:55:53Z) - High-probability Convergence Bounds for Nonlinear Stochastic Gradient Descent Under Heavy-tailed Noise [59.25598762373543]
重み付き雑音の存在下でのストリーミングデータにおける学習の精度保証について検討した。
解析的に、与えられた問題に対する設定の選択に$ta$を使うことができることを実証する。
論文 参考訳(メタデータ) (2023-10-28T18:53:41Z) - Tradeoffs between convergence rate and noise amplification for momentum-based accelerated optimization algorithms [8.669461942767098]
モーメントに基づく1次最適化アルゴリズムについて検討し, 繰り返しが付加的な白色雑音を受ける場合について検討した。
強い凸2次問題に対しては、雑音増幅の定量化のために最適化変数における誤差の定常分散を用いる。
雑音増幅と定位時間のバランスをとるアルゴリズムの2つのパラメータ化ファミリを導入する。
論文 参考訳(メタデータ) (2022-09-24T04:26:30Z) - Hessian Averaging in Stochastic Newton Methods Achieves Superlinear
Convergence [69.65563161962245]
ニュートン法を用いて,滑らかで強凸な目的関数を考える。
最適段階において局所収束に遷移する普遍重み付き平均化スキームが存在することを示す。
論文 参考訳(メタデータ) (2022-04-20T07:14:21Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Computationally Efficient and Statistically Optimal Robust Low-rank
Matrix and Tensor Estimation [15.389011827844572]
低ランク線形収縮推定法では, どちらも統計的に困難である。
本稿では,計算効率だけでなく,統計的に最適である新しいサブオリエント(RsGrad)を提案する。
論文 参考訳(メタデータ) (2022-03-02T09:05:15Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。