Fugu-MT 論文翻訳(概要): Connecting NTK and NNGP: A Unified Theoretical Framework for Wide Neural Network Learning Dynamics

論文の概要: Connecting NTK and NNGP: A Unified Theoretical Framework for Wide Neural Network Learning Dynamics

arxiv url: http://arxiv.org/abs/2309.04522v2
Date: Tue, 31 Dec 2024 22:50:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-03 22:24:07.64443
Title: Connecting NTK and NNGP: A Unified Theoretical Framework for Wide Neural Network Learning Dynamics
Title（参考訳）: NTKとNNGPを接続する: 広義ニューラルネットワーク学習ダイナミクスのための統一理論フレームワーク
Authors: Yehonatan Avidan, Qianyi Li, Haim Sompolinsky,
Abstract要約: 我々は、ディープ・ワイド・ニューラルネットワークの学習プロセスのための包括的なフレームワークを提供する。拡散相を特徴づけることで、私たちの研究は脳内の表現的ドリフトに光を当てます。
参考スコア（独自算出の注目度）: 6.349503549199403
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Artificial neural networks have revolutionized machine learning in recent years, but a complete theoretical framework for their learning process is still lacking. Substantial advances were achieved for wide networks, within two disparate theoretical frameworks: the Neural Tangent Kernel (NTK), which assumes linearized gradient descent dynamics, and the Bayesian Neural Network Gaussian Process (NNGP). We unify these two theories using gradient descent learning with an additional noise in an ensemble of wide deep networks. We construct an analytical theory for the network input-output function and introduce a new time-dependent Neural Dynamical Kernel (NDK) from which both NTK and NNGP kernels are derived. We identify two learning phases: a gradient-driven learning phase, dominated by loss minimization, in which the time scale is governed by the initialization variance. It is followed by a slow diffusive learning stage, where the parameters sample the solution space, with a time constant decided by the noise and the Bayesian prior variance. The two variance parameters strongly affect the performance in the two regimes, especially in sigmoidal neurons. In contrast to the exponential convergence of the mean predictor in the initial phase, the convergence to the equilibrium is more complex and may behave nonmonotonically. By characterizing the diffusive phase, our work sheds light on representational drift in the brain, explaining how neural activity changes continuously without degrading performance, either by ongoing gradient signals that synchronize the drifts of different synapses or by architectural biases that generate task-relevant information that is robust against the drift process. This work closes the gap between the NTK and NNGP theories, providing a comprehensive framework for the learning process of deep wide neural networks and for analyzing dynamics in biological circuits.
Abstract（参考訳）: 人工知能は近年、機械学習に革命をもたらしたが、その学習プロセスのための完全な理論的枠組みはまだ不足している。線形化勾配勾配降下力学を仮定するニューラル・タンジェント・カーネル(NTK)とベイズニューラルネットワークガウス過程(NNGP)の2つの異なる理論的枠組みの中で、幅広いネットワークに対して実質的な進歩が達成された。我々はこれらの2つの理論を、広義の深層ネットワークのアンサンブルに付加的な雑音を伴う勾配降下学習を用いて統一する。ネットワーク入力出力関数の解析理論を構築し、NTKとNNGPの両方のカーネルを導出する新しい時間依存型ニューラルダイナミックカーネル(NDK)を導入する。時間スケールが初期化分散によって支配される損失最小化に支配される勾配駆動型学習相の2つの学習相を同定する。続いて、パラメータが解空間をサンプリングし、ノイズとベイズ先行分散によって決定される時間定数を持つ、遅い拡散学習段階が続く。 2つの分散パラメータは2つの状態、特にシグモダルニューロンのパフォーマンスに強く影響を及ぼす。最初のフェーズにおける平均予測子の指数収束とは対照的に、平衡への収束はより複雑であり、単調に振る舞うこともある。拡散相を特徴づけることで、我々の研究は脳内の表現的ドリフトに光を当て、異なるシナプスのドリフトを同期する進行中の勾配信号や、ドリフトプロセスに対して堅牢なタスク関連情報を生成するアーキテクチャバイアスによって、神経活動が性能を低下させることなく継続的に変化するかを説明する。この研究はNTK理論とNNGP理論のギャップを埋め、ディープ・ワイド・ニューラルネットワークの学習プロセスと生物学的回路のダイナミクス解析のための包括的なフレームワークを提供する。

関連論文リスト

Infinite Width Limits of Self Supervised Neural Networks [6.178817969919849]
NTKと自己教師型学習のギャップを埋め、Barlow Twinsの損失下で訓練された2層ニューラルネットワークに焦点を当てる。ネットワークの幅が無限大に近づくと、バーロウ・ツインズのNTKは確かに一定となる。
論文参考訳（メタデータ） (2024-11-17T21:13:57Z)
Stochastic Gradient Descent for Two-layer Neural Networks [2.0349026069285423]
本稿では、過パラメータ化された2層ニューラルネットワークに適用した場合の降下(SGD)アルゴリズムの収束率について検討する。提案手法は,NTKのタンジェントカーネル(NTK)近似と,NTKが生成する再生カーネル空間(RKHS)の収束解析を組み合わせたものである。我々の研究フレームワークは、カーネルメソッドと最適化プロセスの間の複雑な相互作用を探索し、ニューラルネットワークのダイナミクスと収束特性に光を当てることを可能にする。
論文参考訳（メタデータ） (2024-07-10T13:58:57Z)
Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime [52.00917519626559]
本稿では、ニューラルネットワークの2つのモデルと、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能なトレーニングについて述べる。また、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提示する。この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。
論文参考訳（メタデータ） (2024-05-24T06:30:36Z)
Demystifying Lazy Training of Neural Networks from a Macroscopic Viewpoint [5.9954962391837885]
ニューラルネットワークの勾配勾配勾配ダイナミクスをマクロ的限界レンズを用いて検討する。我々の研究は、勾配降下がディープニューラルネットワークを高速でトレーニング損失ゼロに駆動できることを明らかにした。我々のアプローチは、Neural Tangent Kernel(NTK)パラダイムからインスピレーションを得ている。
論文参考訳（メタデータ） (2024-04-07T08:07:02Z)
A Unified Kernel for Neural Network Learning [4.0759204898334715]
本稿では、勾配降下を伴うニューラルネットワークの学習力学を特徴付けるUnified Neural Kernel(UNK)を提案する。 UNK は NNGP と NTK の両方の制限特性を維持し、有限学習ステップで NTK に似た振る舞いを示す。また、UNKカーネルの均一な厳密性と学習収束性を理論的に特徴づける。
論文参考訳（メタデータ） (2024-03-26T07:55:45Z)
Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。 NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文参考訳（メタデータ） (2023-07-27T06:59:46Z)
Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文参考訳（メタデータ） (2023-02-01T03:18:07Z)
Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文参考訳（メタデータ） (2022-09-16T06:36:06Z)
Neural Piecewise-Constant Delay Differential Equations [17.55759866368141]
本稿では,PCDDE(Neural Piecewise-Constant Delay Differential Equations)と呼ばれる,新しい連続深度ニューラルネットワークを紹介する。ニューラルネットワークPCDDEは,1次元の離散遅延人口動態と実世界のデータセットにおいて,既存の連続深度ニューラルネットワークフレームワークよりも優れていることを示す。
論文参考訳（メタデータ） (2022-01-04T03:44:15Z)
What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文参考訳（メタデータ） (2021-06-12T13:05:11Z)
Geometry Perspective Of Estimating Learning Capability Of Neural Networks [0.0]
本稿では,勾配勾配勾配を用いた最小二乗回帰(SGD)を一般化したニューラルネットワークの幅広いクラスについて考察する。一般化能力とニューラルネットワークの安定性との関係についても論じている。ニューラルネットワークの学習理論と高エネルギー物理の原理を関連付けることにより,人工ニューラルネットワークの観点からの複雑性・摩擦予想の変種を確立する。
論文参考訳（メタデータ） (2020-11-03T12:03:19Z)
Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文参考訳（メタデータ） (2020-07-31T01:57:47Z)
On the Empirical Neural Tangent Kernel of Standard Finite-Width Convolutional Neural Network Architectures [3.4698840925433765]
NTK理論が実際に一般的な幅の標準的なニューラルネットワークアーキテクチャをいかにうまくモデル化するかは、まだ明らかな疑問である。我々はこの疑問を、AlexNetとLeNetという2つのよく知られた畳み込みニューラルネットワークアーキテクチャに対して実証的に研究する。これらのネットワークのより広いバージョンでは、完全に接続されたレイヤのチャネル数や幅が増加すると、偏差は減少する。
論文参考訳（メタデータ） (2020-06-24T11:40:36Z)
A Generalized Neural Tangent Kernel Analysis for Two-layer Neural Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。これは、トレーニング損失が一定の精度まで線形に収束することを意味する。また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文参考訳（メタデータ） (2020-02-10T18:56:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。