論文の概要: Finite Versus Infinite Neural Networks: an Empirical Study
- arxiv url: http://arxiv.org/abs/2007.15801v2
- Date: Tue, 8 Sep 2020 06:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 05:53:53.892598
- Title: Finite Versus Infinite Neural Networks: an Empirical Study
- Title(参考訳): 有限対無限ニューラルネットワーク:実証的研究
- Authors: Jaehoon Lee, Samuel S. Schoenholz, Jeffrey Pennington, Ben Adlam,
Lechao Xiao, Roman Novak, Jascha Sohl-Dickstein
- Abstract要約: カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
- 参考スコア(独自算出の注目度): 69.07049353209463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We perform a careful, thorough, and large scale empirical study of the
correspondence between wide neural networks and kernel methods. By doing so, we
resolve a variety of open questions related to the study of infinitely wide
neural networks. Our experimental results include: kernel methods outperform
fully-connected finite-width networks, but underperform convolutional finite
width networks; neural network Gaussian process (NNGP) kernels frequently
outperform neural tangent (NT) kernels; centered and ensembled finite networks
have reduced posterior variance and behave more similarly to infinite networks;
weight decay and the use of a large learning rate break the correspondence
between finite and infinite networks; the NTK parameterization outperforms the
standard parameterization for finite width networks; diagonal regularization of
kernels acts similarly to early stopping; floating point precision limits
kernel performance beyond a critical dataset size; regularized ZCA whitening
improves accuracy; finite network performance depends non-monotonically on
width in ways not captured by double descent phenomena; equivariance of CNNs is
only beneficial for narrow networks far from the kernel regime. Our experiments
additionally motivate an improved layer-wise scaling for weight decay which
improves generalization in finite-width networks. Finally, we develop improved
best practices for using NNGP and NT kernels for prediction, including a novel
ensembling technique. Using these best practices we achieve state-of-the-art
results on CIFAR-10 classification for kernels corresponding to each
architecture class we consider.
- Abstract(参考訳): 我々は,広域ニューラルネットワークとカーネル手法の対応について,注意深く,徹底的に,大規模に実証研究を行う。
これにより、無限大のニューラルネットワークの研究に関連する様々なオープンな疑問を解決できる。
Our experimental results include: kernel methods outperform fully-connected finite-width networks, but underperform convolutional finite width networks; neural network Gaussian process (NNGP) kernels frequently outperform neural tangent (NT) kernels; centered and ensembled finite networks have reduced posterior variance and behave more similarly to infinite networks; weight decay and the use of a large learning rate break the correspondence between finite and infinite networks; the NTK parameterization outperforms the standard parameterization for finite width networks; diagonal regularization of kernels acts similarly to early stopping; floating point precision limits kernel performance beyond a critical dataset size; regularized ZCA whitening improves accuracy; finite network performance depends non-monotonically on width in ways not captured by double descent phenomena; equivariance of CNNs is only beneficial for narrow networks far from the kernel regime.
また, 有限幅ネットワークの一般化を改善するため, 重み減衰の層間スケーリングも改善した。
最後に, nngp および nt カーネルを用いた予測手法を改良し, 新たな ensembling 手法を考案した。
これらのベストプラクティスを用いて、検討したアーキテクチャクラスに対応するカーネルの CIFAR-10 分類における最先端の結果を得る。
関連論文リスト
- Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Local Kernel Renormalization as a mechanism for feature learning in
overparametrized Convolutional Neural Networks [0.0]
実験的な証拠は、無限幅限界における完全連結ニューラルネットワークが最終的に有限幅限界よりも優れていることを示している。
畳み込み層を持つ最先端アーキテクチャは、有限幅構造において最適な性能を達成する。
有限幅FCネットワークの一般化性能は,ガウス事前選択に適した無限幅ネットワークで得られることを示す。
論文 参考訳(メタデータ) (2023-07-21T17:22:04Z) - Sparsity-depth Tradeoff in Infinitely Wide Deep Neural Networks [22.083873334272027]
我々は,スペーサーネットワークが,様々なデータセットの浅い深度で非スパースネットワークより優れていることを観察した。
カーネルリッジ回帰の一般化誤差に関する既存の理論を拡張した。
論文 参考訳(メタデータ) (2023-05-17T20:09:35Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Classifying high-dimensional Gaussian mixtures: Where kernel methods
fail and neural networks succeed [27.38015169185521]
2層ニューラルネットワーク (2lnn) の隠れたニューロンがカーネル学習の性能を上回ることができることを理論的に示している。
ニューラルネットワークのオーバーパラメータが収束を早めるが、最終的な性能は改善しないことを示す。
論文 参考訳(メタデータ) (2021-02-23T15:10:15Z) - On the Empirical Neural Tangent Kernel of Standard Finite-Width
Convolutional Neural Network Architectures [3.4698840925433765]
NTK理論が実際に一般的な幅の標準的なニューラルネットワークアーキテクチャをいかにうまくモデル化するかは、まだ明らかな疑問である。
我々はこの疑問を、AlexNetとLeNetという2つのよく知られた畳み込みニューラルネットワークアーキテクチャに対して実証的に研究する。
これらのネットワークのより広いバージョンでは、完全に接続されたレイヤのチャネル数や幅が増加すると、偏差は減少する。
論文 参考訳(メタデータ) (2020-06-24T11:40:36Z) - On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。
その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。
しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文 参考訳(メタデータ) (2020-01-28T16:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。