論文の概要: Connecting NTK and NNGP: A Unified Theoretical Framework for Neural
Network Learning Dynamics in the Kernel Regime
- arxiv url: http://arxiv.org/abs/2309.04522v1
- Date: Fri, 8 Sep 2023 18:00:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 18:00:26.458899
- Title: Connecting NTK and NNGP: A Unified Theoretical Framework for Neural
Network Learning Dynamics in the Kernel Regime
- Title(参考訳): NTKとNNGPの接続:カーネルレジームにおけるニューラルネットワーク学習ダイナミクスの統一理論フレームワーク
- Authors: Yehonatan Avidan, Qianyi Li, Haim Sompolinsky
- Abstract要約: ニューラルネットワークの学習過程を無限の幅制限で理解するための包括的フレームワークを提供する。
我々は、勾配駆動学習と拡散学習という、異なる時間スケールで特徴づけられる2つの学習フェーズを同定する。
- 参考スコア(独自算出の注目度): 7.136205674624813
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Artificial neural networks have revolutionized machine learning in recent
years, but a complete theoretical framework for their learning process is still
lacking. Substantial progress has been made for infinitely wide networks. In
this regime, two disparate theoretical frameworks have been used, in which the
network's output is described using kernels: one framework is based on the
Neural Tangent Kernel (NTK) which assumes linearized gradient descent dynamics,
while the Neural Network Gaussian Process (NNGP) kernel assumes a Bayesian
framework. However, the relation between these two frameworks has remained
elusive. This work unifies these two distinct theories using a Markov proximal
learning model for learning dynamics in an ensemble of randomly initialized
infinitely wide deep networks. We derive an exact analytical expression for the
network input-output function during and after learning, and introduce a new
time-dependent Neural Dynamical Kernel (NDK) from which both NTK and NNGP
kernels can be derived. We identify two learning phases characterized by
different time scales: gradient-driven and diffusive learning. In the initial
gradient-driven learning phase, the dynamics is dominated by deterministic
gradient descent, and is described by the NTK theory. This phase is followed by
the diffusive learning stage, during which the network parameters sample the
solution space, ultimately approaching the equilibrium distribution
corresponding to NNGP. Combined with numerical evaluations on synthetic and
benchmark datasets, we provide novel insights into the different roles of
initialization, regularization, and network depth, as well as phenomena such as
early stopping and representational drift. This work closes the gap between the
NTK and NNGP theories, providing a comprehensive framework for understanding
the learning process of deep neural networks in the infinite width limit.
- Abstract(参考訳): 近年、ニューラルネットワークは機械学習に革命をもたらしたが、学習プロセスのための完全な理論的枠組みはまだ欠落している。
無限に広いネットワークでかなりの進歩を遂げた。
この方法では、ネットワークの出力がカーネルを使って記述される2つの異なる理論的枠組みが使われている: 1つのフレームワークは線形化された勾配降下ダイナミクスを仮定するニューラルネットワーク接核(ntk)に基づいており、ニューラルネットワークガウス過程(nngp)カーネルはベイズフレームワークを仮定している。
しかし、両者の関係はいまだ解明されていない。
この研究はマルコフ近位学習モデルを用いてこれらの2つの異なる理論を統一し、ランダムに初期化された無限大深層ネットワークのアンサンブルで力学を学習する。
学習前後のネットワーク入力出力関数の正確な解析式を導出し、NTKとNNGPの両方のカーネルを導出できる新しい時間依存ニューラルダイナミックカーネル(NDK)を導入する。
異なる時間スケールで特徴付けられる2つの学習段階:勾配駆動学習と拡散学習。
最初の勾配駆動学習フェーズでは、力学は決定論的勾配降下に支配され、NTK理論によって記述される。
このフェーズは拡散学習段階を経て、ネットワークパラメータが解空間をサンプリングし、最終的にnngpに対応する平衡分布に近づく。
合成データセットとベンチマークデータセットの数値評価を組み合わせることで,初期化,正規化,ネットワーク深さ,および早期停止や表現ドリフトといった現象に対する新たな知見が得られる。
この研究はNTK理論とNNGP理論のギャップを埋め、無限の幅制限でディープニューラルネットワークの学習過程を理解するための包括的なフレームワークを提供する。
関連論文リスト
- A Survey on Statistical Theory of Deep Learning: Approximation, Training
Dynamics, and Generative Models [15.692437265063342]
本稿では3つの観点から,ニューラルネットワークの統計理論に関する文献をレビューする。
ニューラルネットワークの過剰なリスクに関する結果は、回帰または分類の非パラメトリックフレームワークでレビューされる。
本稿では、GAN(Generative Adversarial Networks)、拡散モデル、Large Language Models(LLMs)におけるICL(In-context Learning)などの生成モデルにおける最新の理論的進歩について概説する。
論文 参考訳(メタデータ) (2024-01-14T02:30:19Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - Analyzing Finite Neural Networks: Can We Trust Neural Tangent Kernel
Theory? [2.0711789781518752]
ニューラルカーネル(NTK)理論は、勾配勾配下での無限大深層ニューラルネットワーク(DNN)の力学の研究に広く用いられている。
NTK理論が実用的に完全に連結されたReLUおよびシグモイドDNNに対して有効である場合の実証的研究を行う。
特にNTK理論は、十分に深いネットワークの挙動を説明しておらず、それらの勾配がネットワークの層を伝搬するにつれて爆発する。
論文 参考訳(メタデータ) (2020-12-08T15:19:45Z) - Geometry Perspective Of Estimating Learning Capability Of Neural
Networks [0.0]
本稿では,勾配勾配勾配を用いた最小二乗回帰(SGD)を一般化したニューラルネットワークの幅広いクラスについて考察する。
一般化能力とニューラルネットワークの安定性との関係についても論じている。
ニューラルネットワークの学習理論と高エネルギー物理の原理を関連付けることにより,人工ニューラルネットワークの観点からの複雑性・摩擦予想の変種を確立する。
論文 参考訳(メタデータ) (2020-11-03T12:03:19Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - A Chain Graph Interpretation of Real-World Neural Networks [58.78692706974121]
本稿では,NNを連鎖グラフ(CG)、フィードフォワードを近似推論手法として識別する別の解釈を提案する。
CG解釈は、確率的グラフィカルモデルのリッチな理論的枠組みの中で、各NNコンポーネントの性質を規定する。
我々は,CG解釈が様々なNN技術に対する新しい理論的支援と洞察を提供することを示す具体例を実例で示す。
論文 参考訳(メタデータ) (2020-06-30T14:46:08Z) - On the Empirical Neural Tangent Kernel of Standard Finite-Width
Convolutional Neural Network Architectures [3.4698840925433765]
NTK理論が実際に一般的な幅の標準的なニューラルネットワークアーキテクチャをいかにうまくモデル化するかは、まだ明らかな疑問である。
我々はこの疑問を、AlexNetとLeNetという2つのよく知られた畳み込みニューラルネットワークアーキテクチャに対して実証的に研究する。
これらのネットワークのより広いバージョンでは、完全に接続されたレイヤのチャネル数や幅が増加すると、偏差は減少する。
論文 参考訳(メタデータ) (2020-06-24T11:40:36Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。