論文の概要: Provable Convergence of Nesterov Accelerated Method for
Over-Parameterized Neural Networks
- arxiv url: http://arxiv.org/abs/2107.01832v1
- Date: Mon, 5 Jul 2021 07:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 20:41:04.952986
- Title: Provable Convergence of Nesterov Accelerated Method for
Over-Parameterized Neural Networks
- Title(参考訳): 過パラメータニューラルネットワークにおけるネステロフ加速法の確率収束
- Authors: Xin Liu and Zhisong Pan
- Abstract要約: ReLUアクティベーションを用いた2つの完全連結ニューラルネットワークのNAG解析を行った。
Theta (1/sqrtkappa)$でNAGをゼロにすると、$kappa 1$はニューラルネットワークの速度で決定される。
- 参考スコア(独自算出の注目度): 7.40653399983911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the empirical success of deep learning, it still lacks theoretical
understandings to explain why randomly initialized neural network trained by
first-order optimization methods is able to achieve zero training loss, even
though its landscape is non-convex and non-smooth. Recently, there are some
works to demystifies this phenomenon under over-parameterized regime. In this
work, we make further progress on this area by considering a commonly used
momentum optimization algorithm: Nesterov accelerated method (NAG). We analyze
the convergence of NAG for two-layer fully connected neural network with ReLU
activation. Specifically, we prove that the error of NAG converges to zero at a
linear convergence rate $1-\Theta(1/\sqrt{\kappa})$, where $\kappa > 1$ is
determined by the initialization and the architecture of neural network.
Comparing to the rate $1-\Theta(1/\kappa)$ of gradient descent, NAG achieves an
acceleration. Besides, it also validates NAG and Heavy-ball method can achieve
a similar convergence rate.
- Abstract(参考訳): ディープラーニングの実証的な成功にもかかわらず、一階最適化手法によって訓練されたランダムに初期化されたニューラルネットワークが、非凸で非滑らかであるにもかかわらず、トレーニング損失をゼロにできる理由を説明する理論的理解はいまだに欠けている。
近年,この現象を過小評価する研究がいくつか行われている。
本研究では, 運動量最適化アルゴリズムであるnesterovaccelerated method (nag) を考えることにより, この領域をさらに発展させる。
ReLUアクティベーションを用いた2層完全連結ニューラルネットワークにおけるNAGの収束解析を行った。
具体的には、nagの誤差が1-\theta(1/\sqrt{\kappa})$でゼロに収束することを証明し、ここで$\kappa > 1$ はニューラルネットワークの初期化とアーキテクチャによって決定される。
1-\theta(1/\kappa)$の勾配降下と比較すると、nagは加速を達成する。
さらに、NAG法とヘビーボール法が同様の収束率が得られることを検証する。
関連論文リスト
- Convergence Analysis of Natural Gradient Descent for Over-parameterized Physics-Informed Neural Networks [3.680127959836384]
勾配勾配勾配(GD)や二次勾配勾配(SGD)のような一階法はニューラルネットワークのトレーニングに有効であることが証明されている。
しかし, 2層ニューラルネットワークの学習におけるGDの学習速度は, サンプルサイズとグラム行列に依存しない。
本稿では, 回帰問題である$L2$に対して, 学習率を$mathcalO(1)$から$mathcalO(1)$に改善できることを示す。
論文 参考訳(メタデータ) (2024-08-01T14:06:34Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Provable Acceleration of Nesterov's Accelerated Gradient Method over Heavy Ball Method in Training Over-Parameterized Neural Networks [12.475834086073734]
1次勾配法はニューラルネットワークのトレーニングに広く用いられている。
近年の研究では、最初のニューラルオーダー法が世界最小収束を達成することができることが証明されている。
論文 参考訳(メタデータ) (2022-08-08T07:13:26Z) - A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks [21.994004684742812]
モメンタム法は高速軌道のトレーニングネットワークで広く用いられている。
ランダム数と$kappaOの収束は、大域的な最小値に収束できることを示す。
我々は解析を深い線形ResNetに拡張し、同様の結果を導出する。
論文 参考訳(メタデータ) (2022-04-18T13:24:12Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Regularization Matters: A Nonparametric Perspective on Overparametrized
Neural Network [20.132432350255087]
タンジェント降下(GD)によってトレーニングされた過度にパラメータ化されたニューラルネットワークは、任意のトレーニングデータを確実に過度に適合させることができる。
本稿では、過度にパラメータ化されたニューラルネットワークが、ランダムノイズの存在下での真のターゲット関数をいかに回復するかを考察する。
論文 参考訳(メタデータ) (2020-07-06T01:02:23Z) - A Revision of Neural Tangent Kernel-based Approaches for Neural Networks [34.75076385561115]
ニューラルネットワークカーネルを使用して、ネットワークが任意の有限トレーニングサンプルに完全に適合できることを示す。
単純で解析的なカーネル関数は、完全に訓練されたネットワークと同等のものとして導出された。
より厳密な分析により,スケーリングの問題が解決され,元のNTKに基づく結果の検証が可能となった。
論文 参考訳(メタデータ) (2020-07-02T05:07:55Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。