論文の概要: A Modular Analysis of Provable Acceleration via Polyak's Momentum:
Training a Wide ReLU Network and a Deep Linear Network
- arxiv url: http://arxiv.org/abs/2010.01618v6
- Date: Thu, 10 Jun 2021 22:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 03:34:10.453345
- Title: A Modular Analysis of Provable Acceleration via Polyak's Momentum:
Training a Wide ReLU Network and a Deep Linear Network
- Title(参考訳): polyakの運動量による証明可能な加速度のモジュラー解析--広範なreluネットワークとディープリニアネットワークの訓練-
- Authors: Jun-Kun Wang and Chi-Heng Lin and Jacob Abernethy
- Abstract要約: 本稿では,一層ワイドReLUネットワークとディープリニアネットワークをトレーニングするために,Polyakの運動量の漸近加速線形速度を示す。
この研究は、運動量によってニューラルネットのトレーニングが加速されることを証明している。
- 参考スコア(独自算出の注目度): 13.170519806372072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating a so-called "momentum" dynamic in gradient descent methods is
widely used in neural net training as it has been broadly observed that, at
least empirically, it often leads to significantly faster convergence. At the
same time, there are very few theoretical guarantees in the literature to
explain this apparent acceleration effect. Even for the classical strongly
convex quadratic problems, several existing results only show Polyak's momentum
has an accelerated linear rate asymptotically. In this paper, we first revisit
the quadratic problems and show a non-asymptotic accelerated linear rate of
Polyak's momentum. Then, we provably show that Polyak's momentum achieves
acceleration for training a one-layer wide ReLU network and a deep linear
network, which are perhaps the two most popular canonical models for studying
optimization and deep learning in the literature. Prior work Du at al. 2019 and
Wu et al. 2019 showed that using vanilla gradient descent, and with an use of
over-parameterization, the error decays as $(1- \Theta(\frac{1}{ \kappa'}))^t$
after $t$ iterations, where $\kappa'$ is the condition number of a Gram Matrix.
Our result shows that with the appropriate choice of parameters Polyak's
momentum has a rate of $(1-\Theta(\frac{1}{\sqrt{\kappa'}}))^t$. For the deep
linear network, prior work Hu et al. 2020 showed that vanilla gradient descent
has a rate of $(1-\Theta(\frac{1}{\kappa}))^t$, where $\kappa$ is the condition
number of a data matrix. Our result shows an acceleration rate $(1-
\Theta(\frac{1}{\sqrt{\kappa}}))^t$ is achievable by Polyak's momentum. All the
results in this work are obtained from a modular analysis, which can be of
independent interest. This work establishes that momentum does indeed speed up
neural net training.
- Abstract(参考訳): 勾配降下法にいわゆる「モメンタム」力学を組み込むことは、神経ネットトレーニングにおいて、少なくとも経験的には、はるかに高速な収束をもたらすことが広く観察されているため、広く用いられている。
同時に、この明らかな加速効果を説明するための理論的な保証は文献にはほとんどない。
古典的強凸二次問題でさえ、いくつかの既存の結果はポリアックの運動量は漸近的に加速線形速度を持つことを示している。
本稿では,まず2次問題を再検討し,ポリアクの運動量の非漸近加速線形速度を示す。
次に,ポリアックの運動量は,一層幅の広いreluネットワークとディープリニアネットワークを学習する上で,おそらく文学における最適化と深層学習を学ぶための2つの最も一般的な標準モデルである。
先行研究 du at al. 2019 と wu et al. 2019 では、バニラ勾配勾配の降下と過剰パラメータ化を用いることで、エラーは$t$ 反復後に$(1- \theta(\frac{1}{ \kappa'})^t$ となり、$\kappa'$ はグラム行列の条件数であることを示した。
この結果は、パラメータの適切な選択により、Polyakの運動量は1-\Theta(\frac{1}{\sqrt{\kappa'}})^t$であることを示している。
深い線形ネットワークについて、Huらによる2020年の先行研究により、バニラ勾配降下は1-\Theta(\frac{1}{\kappa})^t$で、$\kappa$はデータ行列の条件数である。
その結果、加速速度$(1\theta(\frac{1}{\sqrt{\kappa}})^t$ はポリアックの運動量によって達成可能であることが示された。
この研究の結果はすべてモジュラー解析から得られ、これは独立した関心を持つことができる。
この研究は、momentumが実際にニューラルネットワークトレーニングをスピードアップさせていることを証明している。
関連論文リスト
- Convergence Analysis of Natural Gradient Descent for Over-parameterized Physics-Informed Neural Networks [3.680127959836384]
勾配勾配勾配(GD)や二次勾配勾配(SGD)のような一階法はニューラルネットワークのトレーニングに有効であることが証明されている。
しかし, 2層ニューラルネットワークの学習におけるGDの学習速度は, サンプルサイズとグラム行列に依存しない。
本稿では, 回帰問題である$L2$に対して, 学習率を$mathcalO(1)$から$mathcalO(1)$に改善できることを示す。
論文 参考訳(メタデータ) (2024-08-01T14:06:34Z) - Leveraging Continuous Time to Understand Momentum When Training Diagonal
Linear Networks [21.176224458126285]
ステップサイズ$gamma$と運動量パラメータ$beta$を用いて運動量勾配勾配の解析に連続時間アプローチを用いる。
私たちは、$lambda$の小さな値がスパースソリューションの回復に役立つことを証明しています。
論文 参考訳(メタデータ) (2024-03-08T13:21:07Z) - Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of
Neural Networks with Polynomial Width, Samples, and Time [37.73689342377357]
不自然な変更を伴わないネットワーク上の勾配勾配勾配が、カーネル法よりも優れたサンプリング複雑性を達成できるかどうかは、まだ明らかな問題である。
正の学習数を持つ射影勾配降下は同じサンプルで低誤差に収束することを示す。
論文 参考訳(メタデータ) (2023-06-28T16:45:38Z) - SKI to go Faster: Accelerating Toeplitz Neural Networks via Asymmetric
Kernels [69.47358238222586]
Toeplitz Neural Networks (TNN) は、印象的な結果を持つ最近のシーケンスモデルである。
我々は, O(n) 計算複雑性と O(n) 相対位置エンコーダ (RPE) 多層パーセプトロン (MLP) と減衰バイアスコールの低減を目指す。
双方向モデルの場合、これはスパースと低ランクのToeplitz行列分解を動機付ける。
論文 参考訳(メタデータ) (2023-05-15T21:25:35Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - Restricted Strong Convexity of Deep Learning Models with Smooth
Activations [31.003601717265006]
本研究では,スムーズなアクティベーション機能を持つディープラーニングモデルの最適化問題について検討する。
Restricted Strong Convexity (RSC) に基づく最適化の新しい解析手法を提案する。
深層学習モデルのためのRCCに基づくGDの幾何収束性を確立するための最初の結果である。
論文 参考訳(メタデータ) (2022-09-29T21:24:26Z) - Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。
我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文 参考訳(メタデータ) (2022-05-22T00:34:41Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Provable Convergence of Nesterov Accelerated Method for
Over-Parameterized Neural Networks [7.40653399983911]
ReLUアクティベーションを用いた2つの完全連結ニューラルネットワークのNAG解析を行った。
Theta (1/sqrtkappa)$でNAGをゼロにすると、$kappa 1$はニューラルネットワークの速度で決定される。
論文 参考訳(メタデータ) (2021-07-05T07:40:35Z) - Accelerated Gradient Tracking over Time-varying Graphs for Decentralized Optimization [59.65871549878937]
実用的な単一ループ加速勾配追跡には$O(fracgamma1-sigma_gamma)2sqrtfracLepsilon)$が必要であることを証明している。
我々の収束率は$O(frac1epsilon5/7)$と$O(fracLmu)5/7frac1(1-sigma)1.5logfrac1epsilon)$よりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-06T15:34:14Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。