論文の概要: A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks
- arxiv url: http://arxiv.org/abs/2204.08306v1
- Date: Mon, 18 Apr 2022 13:24:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 17:07:16.827681
- Title: A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks
- Title(参考訳): 深層線形ニューラルネットワークの学習におけるネステロフ加速度勾配法の収束解析
- Authors: Xin Liu, Wei Tao and Zhisong Pan
- Abstract要約: モメンタム法は高速軌道のトレーニングネットワークで広く用いられている。
ランダム数と$kappaOの収束は、大域的な最小値に収束できることを示す。
我々は解析を深い線形ResNetに拡張し、同様の結果を導出する。
- 参考スコア(独自算出の注目度): 21.994004684742812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Momentum methods, including heavy-ball~(HB) and Nesterov's accelerated
gradient~(NAG), are widely used in training neural networks for their fast
convergence. However, there is a lack of theoretical guarantees for their
convergence and acceleration since the optimization landscape of the neural
network is non-convex. Nowadays, some works make progress towards understanding
the convergence of momentum methods in an over-parameterized regime, where the
number of the parameters exceeds that of the training instances. Nonetheless,
current results mainly focus on the two-layer neural network, which are far
from explaining the remarkable success of the momentum methods in training deep
neural networks. Motivated by this, we investigate the convergence of NAG with
constant learning rate and momentum parameter in training two architectures of
deep linear networks: deep fully-connected linear neural networks and deep
linear ResNets. Based on the over-parameterization regime, we first analyze the
residual dynamics induced by the training trajectory of NAG for a deep
fully-connected linear neural network under the random Gaussian initialization.
Our results show that NAG can converge to the global minimum at a $(1 -
\mathcal{O}(1/\sqrt{\kappa}))^t$ rate, where $t$ is the iteration number and
$\kappa > 1$ is a constant depending on the condition number of the feature
matrix. Compared to the $(1 - \mathcal{O}(1/{\kappa}))^t$ rate of GD, NAG
achieves an acceleration over GD. To the best of our knowledge, this is the
first theoretical guarantee for the convergence of NAG to the global minimum in
training deep neural networks. Furthermore, we extend our analysis to deep
linear ResNets and derive a similar convergence result.
- Abstract(参考訳): 重ボール~(HB)やネステロフ加速勾配~(NAG)を含むモーメントム法は、ニューラルネットワークの高速収束訓練に広く用いられている。
しかし、ニューラルネットワークの最適化環境は凸ではないため、その収束と加速に関する理論的保証が欠如している。
今日では、パラメータ数がトレーニングインスタンスの数を超える過剰パラメータ化システムにおいて、運動量法の収束を理解するための研究が進められている。
それにもかかわらず、現在の結果は主として2層ニューラルネットワークに焦点を当てており、ディープニューラルネットワークのトレーニングにおけるモーメント法の顕著な成功を説明するには程遠い。
そこで本研究では, 深層線形ニューラルネットワークと深部線形ニューラルネットワークの2つのアーキテクチャを学習する際の学習速度と運動量パラメータによるNAGの収束について検討する。
オーバパラメトリゼーション方式に基づいて、ランダムなガウス初期化の下で、深い完全連結線形ニューラルネットワークに対するNAGの訓練軌道によって引き起こされる残留ダイナミクスをまず解析する。
以上の結果から,NAG は 1\mathcal{O}(1/\sqrt{\kappa}))^t$ rate で大域最小値に収束し,$t$ は反復数,$\kappa > 1$ は特徴行列の条件数に依存する定数となることがわかった。
gd の $(1 - \mathcal{o}(1/{\kappa})^t$ レートと比較すると、nag は gd 上の加速を達成する。
私たちの知る限りでは、これは深層ニューラルネットワークのトレーニングにおけるnagのグローバル最小値への収束に関する最初の理論的保証です。
さらに、我々は解析を深い線形 ResNet に拡張し、同様の収束結果を導出する。
関連論文リスト
- Stochastic Gradient Descent for Two-layer Neural Networks [2.0349026069285423]
本稿では、過パラメータ化された2層ニューラルネットワークに適用した場合の降下(SGD)アルゴリズムの収束率について検討する。
提案手法は,NTKのタンジェントカーネル(NTK)近似と,NTKが生成する再生カーネル空間(RKHS)の収束解析を組み合わせたものである。
我々の研究フレームワークは、カーネルメソッドと最適化プロセスの間の複雑な相互作用を探索し、ニューラルネットワークのダイナミクスと収束特性に光を当てることを可能にする。
論文 参考訳(メタデータ) (2024-07-10T13:58:57Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Provable Acceleration of Nesterov's Accelerated Gradient Method over Heavy Ball Method in Training Over-Parameterized Neural Networks [12.475834086073734]
1次勾配法はニューラルネットワークのトレーニングに広く用いられている。
近年の研究では、最初のニューラルオーダー法が世界最小収束を達成することができることが証明されている。
論文 参考訳(メタデータ) (2022-08-08T07:13:26Z) - Mean-Field Analysis of Two-Layer Neural Networks: Global Optimality with
Linear Convergence Rates [7.094295642076582]
平均場体制はNTK(lazy training)体制の理論的に魅力的な代替手段である。
平均場状態における連続ノイズ降下により訓練された2層ニューラルネットワークに対する線形収束結果を確立した。
論文 参考訳(メタデータ) (2022-05-19T21:05:40Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Provable Convergence of Nesterov Accelerated Method for
Over-Parameterized Neural Networks [7.40653399983911]
ReLUアクティベーションを用いた2つの完全連結ニューラルネットワークのNAG解析を行った。
Theta (1/sqrtkappa)$でNAGをゼロにすると、$kappa 1$はニューラルネットワークの速度で決定される。
論文 参考訳(メタデータ) (2021-07-05T07:40:35Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。