論文の概要: Acceleration of stochastic gradient descent with momentum by averaging:
finite-sample rates and asymptotic normality
- arxiv url: http://arxiv.org/abs/2305.17665v2
- Date: Thu, 1 Feb 2024 12:25:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 19:51:36.693244
- Title: Acceleration of stochastic gradient descent with momentum by averaging:
finite-sample rates and asymptotic normality
- Title(参考訳): 平均運動量による確率勾配降下の加速:有限サンプルレートと漸近正規性
- Authors: Kejie Tang, Weidong Liu, Yichen Zhang and Xi Chen
- Abstract要約: 運動量による勾配降下(SGDM)は多くの機械学習や統計応用で広く利用されている。
強い凸条件下でSGDMの有限サンプル収束速度を解析する。
バッチサイズが大きいと、ミニバッチSGDMは、ミニバッチSGDよりも高速に、最適な値の近傍に収束することを示す。
- 参考スコア(独自算出の注目度): 7.793751573538388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent with momentum (SGDM) has been widely used in many
machine learning and statistical applications. Despite the observed empirical
benefits of SGDM over traditional SGD, the theoretical understanding of the
role of momentum for different learning rates in the optimization process
remains widely open. We analyze the finite-sample convergence rate of SGDM
under the strongly convex settings and show that, with a large batch size, the
mini-batch SGDM converges faster than the mini-batch SGD to a neighborhood of
the optimal value. Additionally, our findings, supported by theoretical
analysis and numerical experiments, indicate that SGDM permits broader choices
of learning rates. Furthermore, we analyze the Polyak-averaging version of the
SGDM estimator, establish its asymptotic normality, and justify its asymptotic
equivalence to the averaged SGD. The asymptotic distribution of the averaged
SGDM enables uncertainty quantification of the algorithm output and statistical
inference of the model parameters.
- Abstract(参考訳): 運動量による確率勾配降下(SGDM)は多くの機械学習や統計応用で広く用いられている。
従来のSGDに対するSGDMの実証的な利点にもかかわらず、最適化過程における異なる学習率に対する運動量の役割の理論的理解は依然として広く行われている。
我々は,SGDMの有限サンプル収束速度を強い凸条件下で解析し,バッチサイズが大きい場合,ミニバッチSGDMは,ミニバッチSGDよりも高速に最適値の近傍に収束することを示す。
さらに,理論解析や数値実験によって裏付けられた結果から,SGDMは学習率の幅広い選択を可能にすることが示唆された。
さらに,SGDM推定器のPolyak-averagingバージョンを分析し,その漸近正規性を確立し,その漸近等価性を平均SGDに正当化する。
平均SGDMの漸近分布は、アルゴリズム出力の不確実な定量化とモデルパラメータの統計的推測を可能にする。
関連論文リスト
- Stability and Generalization for Distributed SGDA [70.97400503482353]
分散SGDAのための安定性に基づく一般化分析フレームワークを提案する。
我々は, 安定性の誤差, 一般化ギャップ, 人口リスクの包括的分析を行う。
理論的結果から,一般化ギャップと最適化誤差のトレードオフが明らかになった。
論文 参考訳(メタデータ) (2024-11-14T11:16:32Z) - Does Worst-Performing Agent Lead the Pack? Analyzing Agent Dynamics in Unified Distributed SGD [7.434126318858966]
分散学習は、異種エージェント間の機械学習アルゴリズムのトレーニングに不可欠である。
我々は統一分散SGD(UD-SGD)の分析を行う。
我々は、UD-SGDの収束速度に、サンプリング、シャッフル、マルコフサンプリングなどの異なるサンプリング戦略がどう影響するかを評価する。
論文 参考訳(メタデータ) (2024-09-26T03:12:20Z) - Hitting the High-Dimensional Notes: An ODE for SGD learning dynamics on
GLMs and multi-index models [10.781866671930857]
高次元限界におけるストリーミング勾配降下(SGD)のダイナミクスを解析する。
我々は、通常の微分方程式の体系の形で、SGDの決定論的等価性を実証する。
決定論的等価性に加えて、単純化された拡散係数を持つSDEを導入する。
論文 参考訳(メタデータ) (2023-08-17T13:33:02Z) - Weighted Averaged Stochastic Gradient Descent: Asymptotic Normality and
Optimality [5.817158625734484]
Gradient Descent (SGD) は、現代の統計学および機械学習において最も単純かつ最も人気のあるアルゴリズムの1つである。
異なる環境でのSGDの収束を加速するために、様々な平均化スキームが提案されている。
論文 参考訳(メタデータ) (2023-07-13T17:29:01Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Low-Precision Stochastic Gradient Langevin Dynamics [70.69923368584588]
本稿では,低精度のグラジエントランゲヴィンダイナミクスを初めて研究し,性能を犠牲にすることなくコストを大幅に削減できることを示した。
本研究では,各更新ステップの分散を保存したSGLDの新しい量子化関数を開発する。
我々は,低精度のSGLDが,様々なディープラーニングタスクにおいて8ビットしか持たない完全精度のSGLDに匹敵する性能を実現することを実証した。
論文 参考訳(メタデータ) (2022-06-20T17:25:41Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - On the Generalization of Stochastic Gradient Descent with Momentum [58.900860437254885]
まず,アルゴリズムの安定性が一般化保証の確立に失敗する凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対して、修正モーメントに基づく更新規則を解析し、一般化誤差の上界を認めることを示す。
強凸損失関数の特別な場合において、標準 SGDM の複数のエポックが SGDEM の特別な形式として一般化されるような運動量の範囲を見出す。
論文 参考訳(メタデータ) (2021-02-26T18:58:29Z) - Momentum via Primal Averaging: Theoretical Insights and Learning Rate
Schedules for Non-Convex Optimization [10.660480034605241]
ディープニューラルネットワークのような非トレーニングモデルのために、機械学習コミュニティ内で広く使用されている。
本研究では、SGDSPA(SGDSPA)形式のSGD等価な書き直しを利用して、運動量を持つSGDのリアプノフ解析を開発する。
論文 参考訳(メタデータ) (2020-10-01T13:46:32Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。