Fugu-MT 論文翻訳(概要): Convergence Analysis of alpha-SVRG under Strong Convexity

論文の概要: Convergence Analysis of alpha-SVRG under Strong Convexity

arxiv url: http://arxiv.org/abs/2503.12454v1
Date: Sun, 16 Mar 2025 11:17:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.913982
Title: Convergence Analysis of alpha-SVRG under Strong Convexity
Title（参考訳）: 強凸下におけるα-SVRGの収束解析
Authors: Sean Xiao, Sangwoo Park, Stefan Vlaski,
Abstract要約: 分散還元技術であるα-SVRGは、学習力学における残留雑音のきめ細かい制御を可能にする。その結果,α-SVRGはα選択条件下でのSGDとSVRGと比較して収束速度が速いことがわかった。
参考スコア（独自算出の注目度）: 17.360026829881487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic first-order methods for empirical risk minimization employ gradient approximations based on sampled data in lieu of exact gradients. Such constructions introduce noise into the learning dynamics, which can be corrected through variance-reduction techniques. There is increasing evidence in the literature that in many modern learning applications noise can have a beneficial effect on optimization and generalization. To this end, the recently proposed variance-reduction technique, alpha-SVRG [Yin et al., 2023] allows for fine-grained control of the level of residual noise in the learning dynamics, and has been reported to empirically outperform both SGD and SVRG in modern deep learning scenarios. By focusing on strongly convex environments, we first provide a unified convergence rate expression for alpha-SVRG under fixed learning rate, which reduces to that of either SGD or SVRG by setting alpha=0 or alpha=1, respectively. We show that alpha-SVRG has faster convergence rate compared to SGD and SVRG under suitable choice of alpha. Simulation results on linear regression validate our theory.
Abstract（参考訳）: 経験的リスク最小化のための確率的一階法は、正確な勾配の代わりにサンプルデータに基づく勾配近似を用いる。このような構造は、ノイズを学習力学に導入し、分散還元技術によって修正することができる。多くの近代的な学習アプリケーションでは、ノイズが最適化と一般化に有益な効果をもたらすという証拠が文献で増えている。この目的のために、最近提案された分散還元技術であるα-SVRG [Yin et al , 2023]は、学習力学における残留雑音のレベルをきめ細かな制御を可能にし、現代のディープラーニングシナリオにおいてSGDとSVRGの両方を経験的に上回っていると報告されている。強い凸環境に焦点をあてて、まず、固定学習率下でのα-SVRGの収束率を統一的に表現し、α=0 と α=1 を設定することにより、SGD と SVRG のどちらかに還元する。その結果,α-SVRGはα選択条件下でのSGDとSVRGと比較して収束速度が速いことがわかった。線形回帰のシミュレーション結果は、我々の理論を検証する。

関連論文リスト

Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文参考訳（メタデータ） (2024-10-21T22:40:42Z)
A Coefficient Makes SVRG Effective [51.36251650664215]
SVRG (Variance Reduced Gradient) は理論的に説得力のある最適化手法である。本研究では,実世界のニューラルネットワークを最適化するSVRGの可能性を示す。
論文参考訳（メタデータ） (2023-11-09T18:47:44Z)
Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning and Autoregression [70.78523583702209]
深層ニューラルネットワークを用いた行動クローニングの訓練不安定性について検討した。トレーニング中のSGD更新の最小化は,長期的報奨の急激な振動をもたらすことが観察された。
論文参考訳（メタデータ） (2023-10-17T17:39:40Z)
Closing the gap between SVRG and TD-SVRG with Gradient Splitting [17.071971639540976]
時間差(TD)学習は、分散還元法により性能を向上できる強化学習における政策評価である。最近の研究は、TD学習の解釈を、適切に選択された関数の勾配の分割として利用し、アルゴリズムを簡素化し、SVRGとTDを融合させる。本研究の主な成果は,1/8ドルの学習率を持つ幾何学的収束であり,凸条件下でSVRGが利用できる収束値と同一である。
論文参考訳（メタデータ） (2022-11-29T14:21:34Z)
NAG-GS: Semi-Implicit, Accelerated and Robust Stochastic Optimizer [45.47667026025716]
2つの重要な要素に依存した、新しく、堅牢で、加速された反復を提案する。 NAG-GSと呼ばれる手法の収束と安定性は、まず広範に研究されている。我々は、NAG-arityが、重量減衰を伴う運動量SGDや機械学習モデルのトレーニングのためのAdamWといった最先端の手法と競合していることを示す。
論文参考訳（メタデータ） (2022-09-29T16:54:53Z)
Improving Covariance Conditioning of the SVD Meta-layer by Orthogonality [65.67315418971688]
最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文参考訳（メタデータ） (2022-07-05T15:39:29Z)
Clipped Stochastic Methods for Variational Inequalities with Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文参考訳（メタデータ） (2022-06-02T15:21:55Z)
Stochastic Second-Order Methods Provably Beat SGD For Gradient-Dominated Functions [42.57892322514602]
SCRNは,最もよく知られた勾配勾配勾配勾配の複雑さを$mathcalO(epsilon-1/2)$で改善することを示した。また, SCRNのサンプルの複雑さは, バッチサイズが異なる分散還元法を用いて$mathcalO(epsilon-1/2)$で改善できることを示した。
論文参考訳（メタデータ） (2022-05-25T15:33:00Z)
Optimizing Information-theoretical Generalization Bounds via Anisotropic Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文参考訳（メタデータ） (2021-10-26T15:02:27Z)
Towards Understanding Label Smoothing [36.54164997035046]
ラベルスムーズな正規化(LSR)は、トレーニングアルゴリズムによるディープニューラルネットワークにおいて大きな成功を収めている。適切なLSRが分散を減少させることで収束を加速することを示す。本稿では,TSLA(Two-Stage LAbel smoothing algorithm)を提案する。
論文参考訳（メタデータ） (2020-06-20T20:36:17Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。