論文の概要: The Implicit Regularization of Momentum Gradient Descent with Early
Stopping
- arxiv url: http://arxiv.org/abs/2201.05405v1
- Date: Fri, 14 Jan 2022 11:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 18:54:12.592464
- Title: The Implicit Regularization of Momentum Gradient Descent with Early
Stopping
- Title(参考訳): 早期停止を伴うモーメントム勾配の急激な規則化
- Authors: Li Wang (1), Yingcong Zhou (2), Zhiguo Fu (1) ((1) Northeast Normal
University, (2) Beihua University)
- Abstract要約: 運動量勾配降下 (MGD) の暗黙的な正則化を, 明示的な$ell$-regularization (ridge) と比較することにより, 早期停止を特徴付ける。
特に、MGFとリッジの相対ベイズリスクは、最適チューニングの下で1から1.035である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The study on the implicit regularization induced by gradient-based
optimization is a longstanding pursuit. In the present paper, we characterize
the implicit regularization of momentum gradient descent (MGD) with early
stopping by comparing with the explicit $\ell_2$-regularization (ridge). In
details, we study MGD in the continuous-time view, so-called momentum gradient
flow (MGF), and show that its tendency is closer to ridge than the gradient
descent (GD) [Ali et al., 2019] for least squares regression. Moreover, we
prove that, under the calibration $t=\sqrt{2/\lambda}$, where $t$ is the time
parameter in MGF and $\lambda$ is the tuning parameter in ridge regression, the
risk of MGF is no more than 1.54 times that of ridge. In particular, the
relative Bayes risk of MGF to ridge is between 1 and 1.035 under the optimal
tuning. The numerical experiments support our theoretical results strongly.
- Abstract(参考訳): 勾配に基づく最適化によって引き起こされる暗黙の正則化の研究は長年の追求である。
本稿では,運動量勾配降下 (mgd) の暗黙的な正則化を,明示的な $\ell_2$-regularization (ridge) との比較により早期停止と特徴付ける。
詳しくは,mgdを連続時間視点,いわゆる運動量勾配流(mgf)で検討し,その傾向が勾配勾配流 (gd) [ali et al., 2019] よりも少なくとも二乗回帰の方が尾根に近いことを示した。
さらに、キャリブレーション$t=\sqrt{2/\lambda}$では、$t$はMGFの時間パラメータであり、$\lambda$はリッジ回帰のチューニングパラメータであり、MGFのリスクはリッジの1.54倍以下であることを示す。
特に、MGFとリッジの相対ベイズリスクは、最適チューニングの下で1から1.035である。
数値実験は我々の理論結果を強く支持する。
関連論文リスト
- Faster Convergence of Stochastic Accelerated Gradient Descent under Interpolation [51.248784084461334]
我々はNesterov加速度アンダーホ条件の一般化版に対する新しい収束率を証明した。
本分析により, 従来の研究に比べて, 強い成長定数への依存度を$$$から$sqrt$に下げることができた。
論文 参考訳(メタデータ) (2024-04-03T00:41:19Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit regularization in Heavy-ball momentum accelerated stochastic
gradient descent [9.191350169972262]
離散的なH.B運動量更新(GD+M)は、変化した損失によって誘導される連続的な軌跡に従うことを示す。
この(GD+M)の暗黙正則化器は、(GD)のそれよりも$(frac1+beta1-beta)$の係数で強い。
我々は解析を運動量を持つ降下(SGD+M)のバージョンに拡張し、勾配の更新(SGD+M)の連続的な軌跡をポイントワイズで特徴づける。
論文 参考訳(メタデータ) (2023-02-02T03:25:38Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Fast Margin Maximization via Dual Acceleration [52.62944011696364]
指数関数的尾の損失を持つ線形分類器を訓練するための運動量に基づく手法を提案し,解析する。
この運動量に基づく法は、最大マルジン問題の凸双対、特にこの双対にネステロフ加速度を適用することによって導出される。
論文 参考訳(メタデータ) (2021-07-01T16:36:39Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Escaping Saddle Points Faster with Stochastic Momentum [9.485782209646445]
ディープネットワークでは、モーメントは収束時間を大幅に改善しているように見える。
我々は,SGDを高速に回避できるため,運動量が深度トレーニングを改善することを示す。
また、理想運動量パラメータの選択方法を示す。
論文 参考訳(メタデータ) (2021-06-05T23:34:02Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - The Implicit Regularization of Stochastic Gradient Flow for Least
Squares [24.976079444818552]
最小二乗回帰の基本問題に適用したミニバッチ勾配勾配の暗黙正則化について検討した。
我々は勾配流と呼ばれる勾配降下と同じモーメントを持つ連続時間微分方程式を利用する。
チューニングパラメータ $lambda = 1/t$ で、リッジレグレッションを越えて、時間 $t$ での勾配フローの過剰なリスクに制限を与えます。
論文 参考訳(メタデータ) (2020-03-17T16:37:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。