論文の概要: Convergence Analysis of alpha-SVRG under Strong Convexity
- arxiv url: http://arxiv.org/abs/2503.12454v1
- Date: Sun, 16 Mar 2025 11:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:40.659560
- Title: Convergence Analysis of alpha-SVRG under Strong Convexity
- Title(参考訳): 強凸下におけるα-SVRGの収束解析
- Authors: Sean Xiao, Sangwoo Park, Stefan Vlaski,
- Abstract要約: 分散還元技術であるα-SVRGは、学習力学における残留雑音のきめ細かい制御を可能にする。
その結果,α-SVRGはα選択条件下でのSGDとSVRGと比較して収束速度が速いことがわかった。
- 参考スコア(独自算出の注目度): 17.360026829881487
- License:
- Abstract: Stochastic first-order methods for empirical risk minimization employ gradient approximations based on sampled data in lieu of exact gradients. Such constructions introduce noise into the learning dynamics, which can be corrected through variance-reduction techniques. There is increasing evidence in the literature that in many modern learning applications noise can have a beneficial effect on optimization and generalization. To this end, the recently proposed variance-reduction technique, alpha-SVRG [Yin et al., 2023] allows for fine-grained control of the level of residual noise in the learning dynamics, and has been reported to empirically outperform both SGD and SVRG in modern deep learning scenarios. By focusing on strongly convex environments, we first provide a unified convergence rate expression for alpha-SVRG under fixed learning rate, which reduces to that of either SGD or SVRG by setting alpha=0 or alpha=1, respectively. We show that alpha-SVRG has faster convergence rate compared to SGD and SVRG under suitable choice of alpha. Simulation results on linear regression validate our theory.
- Abstract(参考訳): 経験的リスク最小化のための確率的一階法は、正確な勾配の代わりにサンプルデータに基づく勾配近似を用いる。
このような構造は、ノイズを学習力学に導入し、分散還元技術によって修正することができる。
多くの近代的な学習アプリケーションでは、ノイズが最適化と一般化に有益な効果をもたらすという証拠が文献で増えている。
この目的のために、最近提案された分散還元技術であるα-SVRG [Yin et al , 2023]は、学習力学における残留雑音のレベルをきめ細かな制御を可能にし、現代のディープラーニングシナリオにおいてSGDとSVRGの両方を経験的に上回っていると報告されている。
強い凸環境に焦点をあてて、まず、固定学習率下でのα-SVRGの収束率を統一的に表現し、α=0 と α=1 を設定することにより、SGD と SVRG のどちらかに還元する。
その結果,α-SVRGはα選択条件下でのSGDとSVRGと比較して収束速度が速いことがわかった。
線形回帰のシミュレーション結果は、我々の理論を検証する。
関連論文リスト
- Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning
and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。
トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文 参考訳(メタデータ) (2023-10-17T17:39:40Z) - Byzantine-Robust Decentralized Stochastic Optimization with Stochastic
Gradient Noise-Independent Learning Error [25.15075119957447]
分散ネットワーク上でのビザンチン-ロバスト最適化について検討し、各エージェントが近隣のエージェントと定期的に通信して局所モデルを交換し、勾配降下(SGD)により独自の局所モデルを更新する。
このような手法の性能は、最適化プロセス中に逆向きに実行される未知数のビザンチンエージェントに影響される。
論文 参考訳(メタデータ) (2023-08-10T02:14:23Z) - Closing the gap between SVRG and TD-SVRG with Gradient Splitting [17.071971639540976]
時間差(TD)学習は、分散還元法により性能を向上できる強化学習における政策評価である。
最近の研究は、TD学習の解釈を、適切に選択された関数の勾配の分割として利用し、アルゴリズムを簡素化し、SVRGとTDを融合させる。
本研究の主な成果は,1/8ドルの学習率を持つ幾何学的収束であり,凸条件下でSVRGが利用できる収束値と同一である。
論文 参考訳(メタデータ) (2022-11-29T14:21:34Z) - Improving Covariance Conditioning of the SVD Meta-layer by Orthogonality [65.67315418971688]
最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-07-05T15:39:29Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - Stochastic Second-Order Methods Provably Beat SGD For Gradient-Dominated
Functions [42.57892322514602]
SCRNは,最もよく知られた勾配勾配勾配勾配の複雑さを$mathcalO(epsilon-1/2)$で改善することを示した。
また, SCRNのサンプルの複雑さは, バッチサイズが異なる分散還元法を用いて$mathcalO(epsilon-1/2)$で改善できることを示した。
論文 参考訳(メタデータ) (2022-05-25T15:33:00Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z) - Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。
適切なLSRが分散を減少させることで収束を加速することを示す。
本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文 参考訳(メタデータ) (2020-06-20T20:36:17Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。