Fugu-MT 論文翻訳(概要): Connecting NTK and NNGP: A Unified Theoretical Framework for Neural Network Learning Dynamics in the Kernel Regime

論文の概要: Connecting NTK and NNGP: A Unified Theoretical Framework for Neural Network Learning Dynamics in the Kernel Regime

arxiv url: http://arxiv.org/abs/2309.04522v1
Date: Fri, 8 Sep 2023 18:00:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 18:00:26.458899
Title: Connecting NTK and NNGP: A Unified Theoretical Framework for Neural Network Learning Dynamics in the Kernel Regime
Title（参考訳）: NTKとNNGPの接続:カーネルレジームにおけるニューラルネットワーク学習ダイナミクスの統一理論フレームワーク
Authors: Yehonatan Avidan, Qianyi Li, Haim Sompolinsky
Abstract要約: ニューラルネットワークの学習過程を無限の幅制限で理解するための包括的フレームワークを提供する。我々は、勾配駆動学習と拡散学習という、異なる時間スケールで特徴づけられる2つの学習フェーズを同定する。
参考スコア（独自算出の注目度）: 7.136205674624813
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Artificial neural networks have revolutionized machine learning in recent years, but a complete theoretical framework for their learning process is still lacking. Substantial progress has been made for infinitely wide networks. In this regime, two disparate theoretical frameworks have been used, in which the network's output is described using kernels: one framework is based on the Neural Tangent Kernel (NTK) which assumes linearized gradient descent dynamics, while the Neural Network Gaussian Process (NNGP) kernel assumes a Bayesian framework. However, the relation between these two frameworks has remained elusive. This work unifies these two distinct theories using a Markov proximal learning model for learning dynamics in an ensemble of randomly initialized infinitely wide deep networks. We derive an exact analytical expression for the network input-output function during and after learning, and introduce a new time-dependent Neural Dynamical Kernel (NDK) from which both NTK and NNGP kernels can be derived. We identify two learning phases characterized by different time scales: gradient-driven and diffusive learning. In the initial gradient-driven learning phase, the dynamics is dominated by deterministic gradient descent, and is described by the NTK theory. This phase is followed by the diffusive learning stage, during which the network parameters sample the solution space, ultimately approaching the equilibrium distribution corresponding to NNGP. Combined with numerical evaluations on synthetic and benchmark datasets, we provide novel insights into the different roles of initialization, regularization, and network depth, as well as phenomena such as early stopping and representational drift. This work closes the gap between the NTK and NNGP theories, providing a comprehensive framework for understanding the learning process of deep neural networks in the infinite width limit.
Abstract（参考訳）: 近年、ニューラルネットワークは機械学習に革命をもたらしたが、学習プロセスのための完全な理論的枠組みはまだ欠落している。無限に広いネットワークでかなりの進歩を遂げた。この方法では、ネットワークの出力がカーネルを使って記述される2つの異なる理論的枠組みが使われている: 1つのフレームワークは線形化された勾配降下ダイナミクスを仮定するニューラルネットワーク接核(ntk)に基づいており、ニューラルネットワークガウス過程(nngp)カーネルはベイズフレームワークを仮定している。しかし、両者の関係はいまだ解明されていない。この研究はマルコフ近位学習モデルを用いてこれらの2つの異なる理論を統一し、ランダムに初期化された無限大深層ネットワークのアンサンブルで力学を学習する。学習前後のネットワーク入力出力関数の正確な解析式を導出し、NTKとNNGPの両方のカーネルを導出できる新しい時間依存ニューラルダイナミックカーネル(NDK)を導入する。異なる時間スケールで特徴付けられる2つの学習段階:勾配駆動学習と拡散学習。最初の勾配駆動学習フェーズでは、力学は決定論的勾配降下に支配され、NTK理論によって記述される。このフェーズは拡散学習段階を経て、ネットワークパラメータが解空間をサンプリングし、最終的にnngpに対応する平衡分布に近づく。合成データセットとベンチマークデータセットの数値評価を組み合わせることで,初期化,正規化,ネットワーク深さ,および早期停止や表現ドリフトといった現象に対する新たな知見が得られる。この研究はNTK理論とNNGP理論のギャップを埋め、無限の幅制限でディープニューラルネットワークの学習過程を理解するための包括的なフレームワークを提供する。

関連論文リスト

Infinite Width Limits of Self Supervised Neural Networks [6.178817969919849]
NTKと自己教師型学習のギャップを埋め、Barlow Twinsの損失下で訓練された2層ニューラルネットワークに焦点を当てる。ネットワークの幅が無限大に近づくと、バーロウ・ツインズのNTKは確かに一定となる。
論文参考訳（メタデータ） (2024-11-17T21:13:57Z)
Stochastic Gradient Descent for Two-layer Neural Networks [2.0349026069285423]
本稿では、過パラメータ化された2層ニューラルネットワークに適用した場合の降下(SGD)アルゴリズムの収束率について検討する。提案手法は,NTKのタンジェントカーネル(NTK)近似と,NTKが生成する再生カーネル空間(RKHS)の収束解析を組み合わせたものである。我々の研究フレームワークは、カーネルメソッドと最適化プロセスの間の複雑な相互作用を探索し、ニューラルネットワークのダイナミクスと収束特性に光を当てることを可能にする。
論文参考訳（メタデータ） (2024-07-10T13:58:57Z)
Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime [52.00917519626559]
本稿では、ニューラルネットワークの2つのモデルと、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能なトレーニングについて述べる。また、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提示する。この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。
論文参考訳（メタデータ） (2024-05-24T06:30:36Z)
Demystifying Lazy Training of Neural Networks from a Macroscopic Viewpoint [5.9954962391837885]
ニューラルネットワークの勾配勾配勾配ダイナミクスをマクロ的限界レンズを用いて検討する。我々の研究は、勾配降下がディープニューラルネットワークを高速でトレーニング損失ゼロに駆動できることを明らかにした。我々のアプローチは、Neural Tangent Kernel(NTK)パラダイムからインスピレーションを得ている。
論文参考訳（メタデータ） (2024-04-07T08:07:02Z)
A Unified Kernel for Neural Network Learning [4.0759204898334715]
本稿では、勾配降下を伴うニューラルネットワークの学習力学を特徴付けるUnified Neural Kernel(UNK)を提案する。 UNK は NNGP と NTK の両方の制限特性を維持し、有限学習ステップで NTK に似た振る舞いを示す。また、UNKカーネルの均一な厳密性と学習収束性を理論的に特徴づける。
論文参考訳（メタデータ） (2024-03-26T07:55:45Z)
Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。 NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文参考訳（メタデータ） (2023-07-27T06:59:46Z)
Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文参考訳（メタデータ） (2023-02-01T03:18:07Z)
Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文参考訳（メタデータ） (2022-09-16T06:36:06Z)
Neural Piecewise-Constant Delay Differential Equations [17.55759866368141]
本稿では,PCDDE(Neural Piecewise-Constant Delay Differential Equations)と呼ばれる,新しい連続深度ニューラルネットワークを紹介する。ニューラルネットワークPCDDEは,1次元の離散遅延人口動態と実世界のデータセットにおいて,既存の連続深度ニューラルネットワークフレームワークよりも優れていることを示す。
論文参考訳（メタデータ） (2022-01-04T03:44:15Z)
What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文参考訳（メタデータ） (2021-06-12T13:05:11Z)
Geometry Perspective Of Estimating Learning Capability Of Neural Networks [0.0]
本稿では,勾配勾配勾配を用いた最小二乗回帰(SGD)を一般化したニューラルネットワークの幅広いクラスについて考察する。一般化能力とニューラルネットワークの安定性との関係についても論じている。ニューラルネットワークの学習理論と高エネルギー物理の原理を関連付けることにより,人工ニューラルネットワークの観点からの複雑性・摩擦予想の変種を確立する。
論文参考訳（メタデータ） (2020-11-03T12:03:19Z)
Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文参考訳（メタデータ） (2020-07-31T01:57:47Z)
On the Empirical Neural Tangent Kernel of Standard Finite-Width Convolutional Neural Network Architectures [3.4698840925433765]
NTK理論が実際に一般的な幅の標準的なニューラルネットワークアーキテクチャをいかにうまくモデル化するかは、まだ明らかな疑問である。我々はこの疑問を、AlexNetとLeNetという2つのよく知られた畳み込みニューラルネットワークアーキテクチャに対して実証的に研究する。これらのネットワークのより広いバージョンでは、完全に接続されたレイヤのチャネル数や幅が増加すると、偏差は減少する。
論文参考訳（メタデータ） (2020-06-24T11:40:36Z)
A Generalized Neural Tangent Kernel Analysis for Two-layer Neural Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。これは、トレーニング損失が一定の精度まで線形に収束することを意味する。また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文参考訳（メタデータ） (2020-02-10T18:56:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。