論文の概要: Large Learning Rate Tames Homogeneity: Convergence and Balancing Effect
- arxiv url: http://arxiv.org/abs/2110.03677v1
- Date: Thu, 7 Oct 2021 17:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:19:11.089119
- Title: Large Learning Rate Tames Homogeneity: Convergence and Balancing Effect
- Title(参考訳): 大規模学習速度が均質性を損なう:収束とバランス効果
- Authors: Yuqing Wang, Minshuo Chen, Tuo Zhao, Molei Tao
- Abstract要約: 等質行列因数分解問題に対して,学習率の高いグラディエントDescent (GD) を用いることを検討する。
一定の大規模学習率に対する収束理論を2/L$以上で証明する。
我々はこのような大きな学習率によって引き起こされるGDの暗黙の偏見を厳格に確立し、「バランス」という。
- 参考スコア(独自算出の注目度): 43.00475513526005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent empirical advances show that training deep models with large learning
rate often improves generalization performance. However, theoretical
justifications on the benefits of large learning rate are highly limited, due
to challenges in analysis. In this paper, we consider using Gradient Descent
(GD) with a large learning rate on a homogeneous matrix factorization problem,
i.e., $\min_{X, Y} \|A - XY^\top\|_{\sf F}^2$. We prove a convergence theory
for constant large learning rates well beyond $2/L$, where $L$ is the largest
eigenvalue of Hessian at the initialization. Moreover, we rigorously establish
an implicit bias of GD induced by such a large learning rate, termed
'balancing', meaning that magnitudes of $X$ and $Y$ at the limit of GD
iterations will be close even if their initialization is significantly
unbalanced. Numerical experiments are provided to support our theory.
- Abstract(参考訳): 最近の経験的進歩は、学習率の高い深層モデルの訓練が一般化性能を向上することを示している。
しかし、分析の難しさから、大きな学習率の利点に関する理論的正当化は非常に限られている。
本稿では,同次行列分解問題,すなわち$\min_{X,Y} \|A - XY^\top\|_{\sf F}^2$に対して,学習率の高いグラディエント蛍光(GD)を用いることを検討する。
我々は、初期化時のヘッセンの最大固有値が$l$であるような2/l$以上の一定大きな学習率の収束理論を証明している。
さらに,そのような大きな学習率によって引き起こされるgdの暗黙のバイアスを厳密に確立し,その初期化が著しく不均衡であっても,gdイテレーションの限界でx$とy$のマグニチュードが近くなることを示す。
我々の理論を支持するための数値実験が提供されている。
関連論文リスト
- A Unified Analysis for Finite Weight Averaging [50.75116992029417]
Gradient Descent(SGD)の平均イテレーションは、SWA(Weight Averaging)、EMA(Exponential moving Average)、LAWA(Latest Weight Averaging)といったディープラーニングモデルのトレーニングにおいて、経験的な成功を収めている。
本稿では、LAWAを有限重み平均化(FWA)として一般化し、最適化と一般化の観点からSGDと比較して、それらの利点を説明する。
論文 参考訳(メタデータ) (2024-11-20T10:08:22Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Empirical Risk Minimization with Shuffled SGD: A Primal-Dual Perspective
and Improved Bounds [12.699376765058137]
勾配降下法(SGD)は、おそらく現代の機械学習において最も一般的な最適化法である。
SGDを交換せずにサンプリングするSGDが分析されたのはごく最近のことだ。
データマトリックスに依存し、既存の境界によって予測されるものよりも決して悪くない、きめ細かい複雑性境界を証明します。
論文 参考訳(メタデータ) (2023-06-21T18:14:44Z) - Restricted Strong Convexity of Deep Learning Models with Smooth
Activations [31.003601717265006]
本研究では,スムーズなアクティベーション機能を持つディープラーニングモデルの最適化問題について検討する。
Restricted Strong Convexity (RSC) に基づく最適化の新しい解析手法を提案する。
深層学習モデルのためのRCCに基づくGDの幾何収束性を確立するための最初の結果である。
論文 参考訳(メタデータ) (2022-09-29T21:24:26Z) - Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。
我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文 参考訳(メタデータ) (2022-05-22T00:34:41Z) - Biased Gradient Estimate with Drastic Variance Reduction for Meta
Reinforcement Learning [25.639542287310768]
偏りのある勾配推定はほとんど常に実践されるが、メタRLの先行理論は偏りのない勾配推定の下でのみ収束を確立する。
線形化スコア関数 (LSF) 勾配推定法を提案し, バイアスが$mathcalO (1/sqrtN)$, 分散が$mathcalO (1/N)$である。
定常点への収束に関するメタRLのLSF勾配推定の理論的保証を確立し、N$が大きければ以前の作業よりもN$への依存性がよいことを示す。
論文 参考訳(メタデータ) (2021-12-14T12:29:43Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。