論文の概要: Connecting NTK and NNGP: A Unified Theoretical Framework for Neural
Network Learning Dynamics in the Kernel Regime
- arxiv url: http://arxiv.org/abs/2309.04522v1
- Date: Fri, 8 Sep 2023 18:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 18:00:26.458899
- Title: Connecting NTK and NNGP: A Unified Theoretical Framework for Neural
Network Learning Dynamics in the Kernel Regime
- Title(参考訳): NTKとNNGPの接続:カーネルレジームにおけるニューラルネットワーク学習ダイナミクスの統一理論フレームワーク
- Authors: Yehonatan Avidan, Qianyi Li, Haim Sompolinsky
- Abstract要約: ニューラルネットワークの学習過程を無限の幅制限で理解するための包括的フレームワークを提供する。
我々は、勾配駆動学習と拡散学習という、異なる時間スケールで特徴づけられる2つの学習フェーズを同定する。
- 参考スコア(独自算出の注目度): 7.136205674624813
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Artificial neural networks have revolutionized machine learning in recent
years, but a complete theoretical framework for their learning process is still
lacking. Substantial progress has been made for infinitely wide networks. In
this regime, two disparate theoretical frameworks have been used, in which the
network's output is described using kernels: one framework is based on the
Neural Tangent Kernel (NTK) which assumes linearized gradient descent dynamics,
while the Neural Network Gaussian Process (NNGP) kernel assumes a Bayesian
framework. However, the relation between these two frameworks has remained
elusive. This work unifies these two distinct theories using a Markov proximal
learning model for learning dynamics in an ensemble of randomly initialized
infinitely wide deep networks. We derive an exact analytical expression for the
network input-output function during and after learning, and introduce a new
time-dependent Neural Dynamical Kernel (NDK) from which both NTK and NNGP
kernels can be derived. We identify two learning phases characterized by
different time scales: gradient-driven and diffusive learning. In the initial
gradient-driven learning phase, the dynamics is dominated by deterministic
gradient descent, and is described by the NTK theory. This phase is followed by
the diffusive learning stage, during which the network parameters sample the
solution space, ultimately approaching the equilibrium distribution
corresponding to NNGP. Combined with numerical evaluations on synthetic and
benchmark datasets, we provide novel insights into the different roles of
initialization, regularization, and network depth, as well as phenomena such as
early stopping and representational drift. This work closes the gap between the
NTK and NNGP theories, providing a comprehensive framework for understanding
the learning process of deep neural networks in the infinite width limit.
- Abstract(参考訳): 近年、ニューラルネットワークは機械学習に革命をもたらしたが、学習プロセスのための完全な理論的枠組みはまだ欠落している。
無限に広いネットワークでかなりの進歩を遂げた。
この方法では、ネットワークの出力がカーネルを使って記述される2つの異なる理論的枠組みが使われている: 1つのフレームワークは線形化された勾配降下ダイナミクスを仮定するニューラルネットワーク接核(ntk)に基づいており、ニューラルネットワークガウス過程(nngp)カーネルはベイズフレームワークを仮定している。
しかし、両者の関係はいまだ解明されていない。
この研究はマルコフ近位学習モデルを用いてこれらの2つの異なる理論を統一し、ランダムに初期化された無限大深層ネットワークのアンサンブルで力学を学習する。
学習前後のネットワーク入力出力関数の正確な解析式を導出し、NTKとNNGPの両方のカーネルを導出できる新しい時間依存ニューラルダイナミックカーネル(NDK)を導入する。
異なる時間スケールで特徴付けられる2つの学習段階:勾配駆動学習と拡散学習。
最初の勾配駆動学習フェーズでは、力学は決定論的勾配降下に支配され、NTK理論によって記述される。
このフェーズは拡散学習段階を経て、ネットワークパラメータが解空間をサンプリングし、最終的にnngpに対応する平衡分布に近づく。
合成データセットとベンチマークデータセットの数値評価を組み合わせることで,初期化,正規化,ネットワーク深さ,および早期停止や表現ドリフトといった現象に対する新たな知見が得られる。
この研究はNTK理論とNNGP理論のギャップを埋め、無限の幅制限でディープニューラルネットワークの学習過程を理解するための包括的なフレームワークを提供する。
関連論文リスト
- Infinite Width Limits of Self Supervised Neural Networks [6.178817969919849]
NTKと自己教師型学習のギャップを埋め、Barlow Twinsの損失下で訓練された2層ニューラルネットワークに焦点を当てる。
ネットワークの幅が無限大に近づくと、バーロウ・ツインズのNTKは確かに一定となる。
論文 参考訳(メタデータ) (2024-11-17T21:13:57Z) - Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime [52.00917519626559]
本稿では、ニューラルネットワークの2つのモデルと、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能なトレーニングについて述べる。
また、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提示する。
この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。
論文 参考訳(メタデータ) (2024-05-24T06:30:36Z) - Demystifying Lazy Training of Neural Networks from a Macroscopic Viewpoint [5.9954962391837885]
ニューラルネットワークの勾配勾配勾配ダイナミクスをマクロ的限界レンズを用いて検討する。
我々の研究は、勾配降下がディープニューラルネットワークを高速でトレーニング損失ゼロに駆動できることを明らかにした。
我々のアプローチは、Neural Tangent Kernel(NTK)パラダイムからインスピレーションを得ている。
論文 参考訳(メタデータ) (2024-04-07T08:07:02Z) - A Unified Kernel for Neural Network Learning [4.0759204898334715]
本稿では、勾配降下を伴うニューラルネットワークの学習力学を特徴付けるUnified Neural Kernel(UNK)を提案する。
UNK は NNGP と NTK の両方の制限特性を維持し、有限学習ステップで NTK に似た振る舞いを示す。
また、UNKカーネルの均一な厳密性と学習収束性を理論的に特徴づける。
論文 参考訳(メタデータ) (2024-03-26T07:55:45Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - On the Empirical Neural Tangent Kernel of Standard Finite-Width
Convolutional Neural Network Architectures [3.4698840925433765]
NTK理論が実際に一般的な幅の標準的なニューラルネットワークアーキテクチャをいかにうまくモデル化するかは、まだ明らかな疑問である。
我々はこの疑問を、AlexNetとLeNetという2つのよく知られた畳み込みニューラルネットワークアーキテクチャに対して実証的に研究する。
これらのネットワークのより広いバージョンでは、完全に接続されたレイヤのチャネル数や幅が増加すると、偏差は減少する。
論文 参考訳(メタデータ) (2020-06-24T11:40:36Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。