論文の概要: A high-resolution dynamical view on momentum methods for
over-parameterized neural networks
- arxiv url: http://arxiv.org/abs/2208.03941v1
- Date: Mon, 8 Aug 2022 07:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:33:41.875118
- Title: A high-resolution dynamical view on momentum methods for
over-parameterized neural networks
- Title(参考訳): 過パラメータニューラルネットワークの運動量法に関する高分解能動的考察
- Authors: Xin Liu, Wei Tao, Jun Wang, Zhisong Pan
- Abstract要約: 重ボール法 (HB) とネステロフの加速法 (NAG) は同じ極限常微分方程式 (ODE) を共有していることを示す。
以上の結果より,HBおよびNAGの高分解能ODEに対する収束性はより強いことが示唆された。
- 参考スコア(独自算出の注目度): 25.0743742344486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the convergence analysis of momentum methods in
training a two-layer over-parameterized ReLU neural network, where the number
of parameters is significantly larger than that of training instances. Existing
works on momentum methods show that the heavy-ball method (HB) and Nesterov's
accelerated method (NAG) share the same limiting ordinary differential equation
(ODE), which leads to identical convergence rate. From a high-resolution
dynamical view, we show that HB differs from NAG in terms of the convergence
rate. In addition, our findings provide tighter upper bounds on convergence for
the high-resolution ODEs of HB and NAG.
- Abstract(参考訳): 本稿では,2層超パラメータreluニューラルネットワークの学習における運動量法の収束解析について述べる。
運動量法に関する既存の研究は、ヘビーボール法(HB)とネステロフの加速法(NAG)が同じ極限常微分方程式(ODE)を共有していることを示している。
高分解能の力学の視点から、hb は収束率の点で nag と異なることを示した。
さらに,HBおよびNAGの高分解能ODEに対する収束性について,より厳密な上限を提供する。
関連論文リスト
- Stochastic Gradient Descent for Two-layer Neural Networks [2.0349026069285423]
本稿では、過パラメータ化された2層ニューラルネットワークに適用した場合の降下(SGD)アルゴリズムの収束率について検討する。
提案手法は,NTKのタンジェントカーネル(NTK)近似と,NTKが生成する再生カーネル空間(RKHS)の収束解析を組み合わせたものである。
我々の研究フレームワークは、カーネルメソッドと最適化プロセスの間の複雑な相互作用を探索し、ニューラルネットワークのダイナミクスと収束特性に光を当てることを可能にする。
論文 参考訳(メタデータ) (2024-07-10T13:58:57Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks [21.994004684742812]
モメンタム法は高速軌道のトレーニングネットワークで広く用いられている。
ランダム数と$kappaOの収束は、大域的な最小値に収束できることを示す。
我々は解析を深い線形ResNetに拡張し、同様の結果を導出する。
論文 参考訳(メタデータ) (2022-04-18T13:24:12Z) - Edge of chaos as a guiding principle for modern neural network training [19.419382003562976]
ニューラルネットワーク学習アルゴリズムにおける様々なハイパーパラメータの役割を秩序-カオス位相図を用いて検討する。
特に、広く採用されているFashion-MNISTデータセットに基づいて、完全に解析的なフィードフォワードニューラルネットワークについて検討する。
論文 参考訳(メタデータ) (2021-07-20T12:17:55Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Semi-Implicit Back Propagation [1.5533842336139065]
ニューラルネットワークトレーニングのための半単純バック伝搬法を提案する。
ニューロンの差は後方方向に伝播し、パラメータは近位写像で更新される。
MNISTとCIFAR-10の両方の実験により、提案アルゴリズムは損失減少とトレーニング/検証の精度の両方において、より良い性能をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-10T03:26:09Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。