論文の概要: Limitations of the NTK for Understanding Generalization in Deep Learning
- arxiv url: http://arxiv.org/abs/2206.10012v1
- Date: Mon, 20 Jun 2022 21:23:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 14:28:39.242930
- Title: Limitations of the NTK for Understanding Generalization in Deep Learning
- Title(参考訳): 深層学習における一般化理解のためのntkの限界
- Authors: Nikhil Vyas, Yamini Bansal, Preetum Nakkiran
- Abstract要約: 我々はNTKをスケーリング法則のレンズを通して研究し、ニューラルネットワークの一般化の重要な側面を説明するには不十分であることを示した。
実験的なNTKを一定数のサンプルで事前トレーニングしても、カーネルのスケーリングはニューラルネットワークのスケーリングに追いつかなくなる。
- 参考スコア(独自算出の注目度): 13.44676002603497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ``Neural Tangent Kernel'' (NTK) (Jacot et al 2018), and its empirical
variants have been proposed as a proxy to capture certain behaviors of real
neural networks. In this work, we study NTKs through the lens of scaling laws,
and demonstrate that they fall short of explaining important aspects of neural
network generalization. In particular, we demonstrate realistic settings where
finite-width neural networks have significantly better data scaling exponents
as compared to their corresponding empirical and infinite NTKs at
initialization. This reveals a more fundamental difference between the real
networks and NTKs, beyond just a few percentage points of test accuracy.
Further, we show that even if the empirical NTK is allowed to be pre-trained on
a constant number of samples, the kernel scaling does not catch up to the
neural network scaling. Finally, we show that the empirical NTK continues to
evolve throughout most of the training, in contrast with prior work which
suggests that it stabilizes after a few epochs of training. Altogether, our
work establishes concrete limitations of the NTK approach in understanding
generalization of real networks on natural datasets.
- Abstract(参考訳): 'neural tangent kernel'' (ntk) (jacot et al 2018) とその経験的変種は、実際のニューラルネットワークの特定の挙動を捉えるためのプロキシとして提案されている。
本研究では,スケーリング法則のレンズを通してntkの研究を行い,ニューラルネットワークの一般化の重要な側面を説明することの欠如を実証する。
特に,初期化時の経験的および無限のntkと比較して,有限幅ニューラルネットワークがデータスケーリング指数が有意に優れているような現実的な設定を示す。
これにより、実際のネットワークとNTKの間には、ほんの数パーセントのテスト精度以上の根本的な違いが明らかになる。
さらに,実験的なntkを一定数のサンプルで事前トレーニングしても,カーネルスケーリングがニューラルネットワークのスケーリングに追いつくことはないことを示す。
最後に、経験的ntkはトレーニングのほとんどを通して進化を続けており、いくつかの期間のトレーニングの後に安定化することを示す先行研究とは対照的である。
また,本研究は,自然データセット上の実ネットワークの一般化を理解するため,NTKアプローチの具体的な限界を確立する。
関連論文リスト
- Analyzing the Neural Tangent Kernel of Periodically Activated Coordinate
Networks [30.92757082348805]
ニューラルタンジェントカーネル(NTK)の解析を通して周期的に活性化されるネットワークの理論的理解を提供する。
NTKの観点から,周期的に活性化されるネットワークは,ReLU活性化ネットワークよりもテキスト的に良好であることが示唆された。
論文 参考訳(メタデータ) (2024-02-07T12:06:52Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Neural Tangent Kernel Analysis of Deep Narrow Neural Networks [11.623483126242478]
無限に深いが狭いニューラルネットワークの最初のトレーニング可能性保証を示す。
次に、解析を無限深部畳み込みニューラルネットワーク(CNN)に拡張し、簡単な実験を行う。
論文 参考訳(メタデータ) (2022-02-07T07:27:02Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - Analyzing Finite Neural Networks: Can We Trust Neural Tangent Kernel
Theory? [2.0711789781518752]
ニューラルカーネル(NTK)理論は、勾配勾配下での無限大深層ニューラルネットワーク(DNN)の力学の研究に広く用いられている。
NTK理論が実用的に完全に連結されたReLUおよびシグモイドDNNに対して有効である場合の実証的研究を行う。
特にNTK理論は、十分に深いネットワークの挙動を説明しておらず、それらの勾配がネットワークの層を伝搬するにつれて爆発する。
論文 参考訳(メタデータ) (2020-12-08T15:19:45Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。