論文の概要: A Revision of Neural Tangent Kernel-based Approaches for Neural Networks
- arxiv url: http://arxiv.org/abs/2007.00884v2
- Date: Thu, 6 Aug 2020 23:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 13:16:47.674187
- Title: A Revision of Neural Tangent Kernel-based Approaches for Neural Networks
- Title(参考訳): ニューラルネットワークのためのニューラル・タンジェント・カーネルに基づくアプローチの改訂
- Authors: Kyung-Su Kim, Aur\'elie C. Lozano, Eunho Yang
- Abstract要約: ニューラルネットワークカーネルを使用して、ネットワークが任意の有限トレーニングサンプルに完全に適合できることを示す。
単純で解析的なカーネル関数は、完全に訓練されたネットワークと同等のものとして導出された。
より厳密な分析により,スケーリングの問題が解決され,元のNTKに基づく結果の検証が可能となった。
- 参考スコア(独自算出の注目度): 34.75076385561115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent theoretical works based on the neural tangent kernel (NTK) have shed
light on the optimization and generalization of over-parameterized networks,
and partially bridge the gap between their practical success and classical
learning theory. Especially, using the NTK-based approach, the following three
representative results were obtained: (1) A training error bound was derived to
show that networks can fit any finite training sample perfectly by reflecting a
tighter characterization of training speed depending on the data complexity.
(2) A generalization error bound invariant of network size was derived by using
a data-dependent complexity measure (CMD). It follows from this CMD bound that
networks can generalize arbitrary smooth functions. (3) A simple and analytic
kernel function was derived as indeed equivalent to a fully-trained network.
This kernel outperforms its corresponding network and the existing gold
standard, Random Forests, in few shot learning. For all of these results to
hold, the network scaling factor $\kappa$ should decrease w.r.t. sample size n.
In this case of decreasing $\kappa$, however, we prove that the aforementioned
results are surprisingly erroneous. It is because the output value of trained
network decreases to zero when $\kappa$ decreases w.r.t. n. To solve this
problem, we tighten key bounds by essentially removing $\kappa$-affected
values. Our tighter analysis resolves the scaling problem and enables the
validation of the original NTK-based results.
- Abstract(参考訳): ニューラルタンジェントカーネル(NTK)に基づく最近の理論的研究は、過パラメータネットワークの最適化と一般化に光を当て、その実用的成功と古典的学習理論のギャップを部分的に埋めている。
特にNTKに基づく手法を用いて,(1) トレーニング誤差境界を導出した結果, トレーニング速度の厳密な評価をデータ複雑度に応じて反映することにより, ネットワークが任意の有限トレーニングサンプルに完全に適合できることが示唆された。
2)データ依存複雑性尺度(CMD)を用いて,ネットワークサイズの一般化誤差境界不変量を導出した。
この CMD 境界から、ネットワークは任意の滑らかな函数を一般化できる。
(3) 単純で解析的なカーネル関数は、完全に訓練されたネットワークと同値である。
このカーネルは、対応するネットワークと既存の金本位制であるランダムフォレストをわずかなショット学習で上回っている。
これらすべての結果を保持するために、ネットワークスケーリング係数 $\kappa$ は w.r.t. サンプルサイズ n を減少させるべきである。
しかし、$\kappa$ を減少させる場合、上記の結果が驚くほど誤りであることが証明される。
これは、トレーニングされたネットワークの出力値が$\kappa$がw.r.t.nを下げるとゼロになるためである。
この問題を解決するために、$\kappa$-affected値を削除することでキー境界を狭めます。
より厳密な解析によりスケーリングの問題を解き、元のNTKに基づく結果の検証を可能にする。
関連論文リスト
- Grokking as the Transition from Lazy to Rich Training Dynamics [38.438392453755526]
グルーキングは、ニューラルネットワークの列車の損失がテスト損失よりもはるかに早く減少するときに起こる。
グルーキングの主要な要因は、特徴学習の速度である。
論文 参考訳(メタデータ) (2023-10-09T19:33:21Z) - Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Sharper analysis of sparsely activated wide neural networks with
trainable biases [103.85569570164404]
本研究は,ニューラル・タンジェント・カーネル(NTK)の勾配勾配による一層超過パラメータ化ReLUネットワークのトレーニング研究である。
驚くべきことに、スパシフィケーション後のネットワークは、元のネットワークと同じくらい高速に収束できることが示されている。
一般化境界は制限NTKの最小固有値に依存するため、この研究は制限NTKの最小固有値をさらに研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - The edge of chaos: quantum field theory and deep neural networks [0.0]
我々は、ディープニューラルネットワークの一般クラスに対応する量子場理論を明示的に構築する。
我々は、深さ$T$と幅$N$との比の摂動展開において、相関関数に対するループ補正を計算する。
我々の分析は、急速に出現するNN-QFT対応に対する第一原理のアプローチを提供し、ディープニューラルネットワークの臨界性の研究にいくつかの興味深い道を開く。
論文 参考訳(メタデータ) (2021-09-27T18:00:00Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。