論文の概要: Demystifying Lazy Training of Neural Networks from a Macroscopic Viewpoint
- arxiv url: http://arxiv.org/abs/2404.04859v1
- Date: Sun, 7 Apr 2024 08:07:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:20:53.169975
- Title: Demystifying Lazy Training of Neural Networks from a Macroscopic Viewpoint
- Title(参考訳): マクロ的な観点からのニューラルネットワークの遅延学習
- Authors: Yuqing Li, Tao Luo, Qixuan Zhou,
- Abstract要約: ニューラルネットワークの勾配勾配勾配ダイナミクスをマクロ的限界レンズを用いて検討する。
我々の研究は、勾配降下がディープニューラルネットワークを高速でトレーニング損失ゼロに駆動できることを明らかにした。
我々のアプローチは、Neural Tangent Kernel(NTK)パラダイムからインスピレーションを得ている。
- 参考スコア(独自算出の注目度): 5.9954962391837885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we advance the understanding of neural network training dynamics by examining the intricate interplay of various factors introduced by weight parameters in the initialization process. Motivated by the foundational work of Luo et al. (J. Mach. Learn. Res., Vol. 22, Iss. 1, No. 71, pp 3327-3373), we explore the gradient descent dynamics of neural networks through the lens of macroscopic limits, where we analyze its behavior as width $m$ tends to infinity. Our study presents a unified approach with refined techniques designed for multi-layer fully connected neural networks, which can be readily extended to other neural network architectures. Our investigation reveals that gradient descent can rapidly drive deep neural networks to zero training loss, irrespective of the specific initialization schemes employed by weight parameters, provided that the initial scale of the output function $\kappa$ surpasses a certain threshold. This regime, characterized as the theta-lazy area, accentuates the predominant influence of the initial scale $\kappa$ over other factors on the training behavior of neural networks. Furthermore, our approach draws inspiration from the Neural Tangent Kernel (NTK) paradigm, and we expand its applicability. While NTK typically assumes that $\lim_{m\to\infty}\frac{\log \kappa}{\log m}=\frac{1}{2}$, and imposes each weight parameters to scale by the factor $\frac{1}{\sqrt{m}}$, in our theta-lazy regime, we discard the factor and relax the conditions to $\lim_{m\to\infty}\frac{\log \kappa}{\log m}>0$. Similar to NTK, the behavior of overparameterized neural networks within the theta-lazy regime trained by gradient descent can be effectively described by a specific kernel. Through rigorous analysis, our investigation illuminates the pivotal role of $\kappa$ in governing the training dynamics of neural networks.
- Abstract(参考訳): 本稿では、初期化過程において、重みパラメータによって導入された様々な要因の複雑な相互作用を調べることにより、ニューラルネットワークトレーニングダイナミクスの理解を深める。
我々は、Luo et al(J. Mach. Learn. Res., Vol. 22 Iss. 1, No. 71, pp 3327-3373)の基本的な研究に触発され、マクロ的な限界のレンズを通してニューラルネットワークの勾配勾配のダイナミクスを探索し、その振る舞いを無限の傾向の$m$として分析する。
本研究は,他のニューラルネットワークアーキテクチャに容易に拡張可能な,多層完全連結ニューラルネットワーク用に設計された改良された手法を用いた統一的アプローチを提案する。
重みパラメータが使用する特定の初期化スキームによらず、勾配降下が深層ニューラルネットワークを高速に学習損失に導くことは明らかであり、出力関数$\kappa$の初期スケールが一定のしきい値を超えることを仮定する。
テタラジー領域として特徴づけられるこの体制は、ニューラルネットワークのトレーニング行動に影響を及ぼす他の要因に対して、初期規模の$\kappa$の圧倒的な影響をアクセントする。
さらに,本手法はニューラルタンジェントカーネル(NTK)パラダイムからインスピレーションを得て,適用範囲を広げる。
NTK は通常、$\lim_{m\to\infty}\frac{\log \kappa}{\log m}=\frac{1}{2}$ と仮定し、各重みパラメータを $\frac{1}{\sqrt{m}}$ でスケールさせるが、我々のテータラジーな体制では、この因子を捨て、条件を $\lim_{m\to\infty}\frac{\log \kappa}{\log m}>0$ に緩和する。
NTKと同様に、勾配降下によって訓練されたテータ遅延規則内の過パラメータ化されたニューラルネットワークの挙動は、特定のカーネルによって効果的に説明できる。
厳密な分析を通じて、ニューラルネットワークのトレーニングダイナミクスの管理における$\kappa$の重要な役割を解明する。
関連論文リスト
- Convergence of Gradient Descent for Recurrent Neural Networks: A Nonasymptotic Analysis [16.893624100273108]
教師付き学習環境において,勾配降下を訓練した斜め隠れ重み行列を用いた繰り返しニューラルネットワークの解析を行った。
我々は,パラメータ化を伴わずに勾配降下が最適性を実現することを証明した。
この結果は、繰り返しニューラルネットワークによって近似および学習できる力学系のクラスを明示的に評価することに基づいている。
論文 参考訳(メタデータ) (2024-02-19T15:56:43Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - A Convergence Analysis of Nesterov's Accelerated Gradient Method in
Training Deep Linear Neural Networks [21.994004684742812]
モメンタム法は高速軌道のトレーニングネットワークで広く用いられている。
ランダム数と$kappaOの収束は、大域的な最小値に収束できることを示す。
我々は解析を深い線形ResNetに拡張し、同様の結果を導出する。
論文 参考訳(メタデータ) (2022-04-18T13:24:12Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Towards an Understanding of Residual Networks Using Neural Tangent
Hierarchy (NTH) [2.50686294157537]
グラディエント降下は、目的関数の無限の性質に拘わらず、ディープトレーニングネットワークの時間損失をゼロにする。
本稿では,Deep Residual Network (ResNet) を用いた有限幅ResNetに対するNTKのニューラルダイナミクスの訓練を行った。
我々の分析は、特定の神経結合構造であるResNetがその勝利の主因であることを強く示唆している。
論文 参考訳(メタデータ) (2020-07-07T18:08:16Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。