論文の概要: Analyzing Finite Neural Networks: Can We Trust Neural Tangent Kernel
Theory?
- arxiv url: http://arxiv.org/abs/2012.04477v2
- Date: Wed, 31 Mar 2021 19:06:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 21:45:00.136574
- Title: Analyzing Finite Neural Networks: Can We Trust Neural Tangent Kernel
Theory?
- Title(参考訳): 有限ニューラルネットワークの解析:神経接核理論を信頼できるか?
- Authors: Mariia Seleznova and Gitta Kutyniok
- Abstract要約: ニューラルカーネル(NTK)理論は、勾配勾配下での無限大深層ニューラルネットワーク(DNN)の力学の研究に広く用いられている。
NTK理論が実用的に完全に連結されたReLUおよびシグモイドDNNに対して有効である場合の実証的研究を行う。
特にNTK理論は、十分に深いネットワークの挙動を説明しておらず、それらの勾配がネットワークの層を伝搬するにつれて爆発する。
- 参考スコア(独自算出の注目度): 2.0711789781518752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Tangent Kernel (NTK) theory is widely used to study the dynamics of
infinitely-wide deep neural networks (DNNs) under gradient descent. But do the
results for infinitely-wide networks give us hints about the behavior of real
finite-width ones? In this paper, we study empirically when NTK theory is valid
in practice for fully-connected ReLU and sigmoid DNNs. We find out that whether
a network is in the NTK regime depends on the hyperparameters of random
initialization and the network's depth. In particular, NTK theory does not
explain the behavior of sufficiently deep networks initialized so that their
gradients explode as they propagate through the network's layers: the kernel is
random at initialization and changes significantly during training in this
case, contrary to NTK theory. On the other hand, in the case of vanishing
gradients, DNNs are in the the NTK regime but become untrainable rapidly with
depth. We also describe a framework to study generalization properties of DNNs,
in particular the variance of network's output function, by means of NTK theory
and discuss its limits.
- Abstract(参考訳): 神経接核(neural tangent kernel, ntk)理論は、勾配降下下での無限大深層ニューラルネットワーク(dnn)のダイナミクスを研究するために広く用いられている。
しかし、無限幅ネットワークの結果は、真の有限幅ネットワークの挙動に関するヒントを与えてくれるだろうか?
本稿では,完全連結 relu および sigmoid dnn に対して ntk 理論が実際に有効である場合に経験的に検討する。
ネットワークがNTK体制にあるか否かは、ランダム初期化のハイパーパラメータとネットワークの深さに依存する。
特に、NTK理論は、ネットワークの層を伝播するにつれて勾配が爆発するように初期化された十分に深いネットワークの挙動を説明していない:カーネルは初期化時にランダムであり、この場合、NTK理論とは対照的にトレーニング中に大きく変化する。
一方、勾配が消える場合、DNNはNTK体制にあるが、深さとともに急速に訓練不能になる。
また、DNNの一般化特性、特にネットワークの出力関数の分散をNTK理論を用いて研究し、その限界について議論する枠組みについても述べる。
関連論文リスト
- How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Limitations of the NTK for Understanding Generalization in Deep Learning [13.44676002603497]
我々はNTKをスケーリング法則のレンズを通して研究し、ニューラルネットワークの一般化の重要な側面を説明するには不十分であることを示した。
実験的なNTKを一定数のサンプルで事前トレーニングしても、カーネルのスケーリングはニューラルネットワークのスケーリングに追いつかなくなる。
論文 参考訳(メタデータ) (2022-06-20T21:23:28Z) - Neural Tangent Kernel Analysis of Deep Narrow Neural Networks [11.623483126242478]
無限に深いが狭いニューラルネットワークの最初のトレーニング可能性保証を示す。
次に、解析を無限深部畳み込みニューラルネットワーク(CNN)に拡張し、簡単な実験を行う。
論文 参考訳(メタデータ) (2022-02-07T07:27:02Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - On the Empirical Neural Tangent Kernel of Standard Finite-Width
Convolutional Neural Network Architectures [3.4698840925433765]
NTK理論が実際に一般的な幅の標準的なニューラルネットワークアーキテクチャをいかにうまくモデル化するかは、まだ明らかな疑問である。
我々はこの疑問を、AlexNetとLeNetという2つのよく知られた畳み込みニューラルネットワークアーキテクチャに対して実証的に研究する。
これらのネットワークのより広いバージョンでは、完全に接続されたレイヤのチャネル数や幅が増加すると、偏差は減少する。
論文 参考訳(メタデータ) (2020-06-24T11:40:36Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z) - Disentangling Trainability and Generalization in Deep Neural Networks [45.15453323967438]
我々は,ニューラルネットワークのトレーニング性と一般化のために,NTK(Neural Tangent Kernel)のスペクトルを分析した。
グローバル平均プールのないCNNはFCNとほぼ同じ挙動を示すが、プールを持つCNNは著しく異なり、しばしば一般化性能が向上している。
論文 参考訳(メタデータ) (2019-12-30T18:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。