論文の概要: A Revision of Neural Tangent Kernel-based Approaches for Neural Networks
- arxiv url: http://arxiv.org/abs/2007.00884v2
- Date: Thu, 6 Aug 2020 23:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 13:16:47.674187
- Title: A Revision of Neural Tangent Kernel-based Approaches for Neural Networks
- Title(参考訳): ニューラルネットワークのためのニューラル・タンジェント・カーネルに基づくアプローチの改訂
- Authors: Kyung-Su Kim, Aur\'elie C. Lozano, Eunho Yang
- Abstract要約: ニューラルネットワークカーネルを使用して、ネットワークが任意の有限トレーニングサンプルに完全に適合できることを示す。
単純で解析的なカーネル関数は、完全に訓練されたネットワークと同等のものとして導出された。
より厳密な分析により,スケーリングの問題が解決され,元のNTKに基づく結果の検証が可能となった。
- 参考スコア(独自算出の注目度): 34.75076385561115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent theoretical works based on the neural tangent kernel (NTK) have shed
light on the optimization and generalization of over-parameterized networks,
and partially bridge the gap between their practical success and classical
learning theory. Especially, using the NTK-based approach, the following three
representative results were obtained: (1) A training error bound was derived to
show that networks can fit any finite training sample perfectly by reflecting a
tighter characterization of training speed depending on the data complexity.
(2) A generalization error bound invariant of network size was derived by using
a data-dependent complexity measure (CMD). It follows from this CMD bound that
networks can generalize arbitrary smooth functions. (3) A simple and analytic
kernel function was derived as indeed equivalent to a fully-trained network.
This kernel outperforms its corresponding network and the existing gold
standard, Random Forests, in few shot learning. For all of these results to
hold, the network scaling factor $\kappa$ should decrease w.r.t. sample size n.
In this case of decreasing $\kappa$, however, we prove that the aforementioned
results are surprisingly erroneous. It is because the output value of trained
network decreases to zero when $\kappa$ decreases w.r.t. n. To solve this
problem, we tighten key bounds by essentially removing $\kappa$-affected
values. Our tighter analysis resolves the scaling problem and enables the
validation of the original NTK-based results.
- Abstract(参考訳): ニューラルタンジェントカーネル(NTK)に基づく最近の理論的研究は、過パラメータネットワークの最適化と一般化に光を当て、その実用的成功と古典的学習理論のギャップを部分的に埋めている。
特にNTKに基づく手法を用いて,(1) トレーニング誤差境界を導出した結果, トレーニング速度の厳密な評価をデータ複雑度に応じて反映することにより, ネットワークが任意の有限トレーニングサンプルに完全に適合できることが示唆された。
2)データ依存複雑性尺度(CMD)を用いて,ネットワークサイズの一般化誤差境界不変量を導出した。
この CMD 境界から、ネットワークは任意の滑らかな函数を一般化できる。
(3) 単純で解析的なカーネル関数は、完全に訓練されたネットワークと同値である。
このカーネルは、対応するネットワークと既存の金本位制であるランダムフォレストをわずかなショット学習で上回っている。
これらすべての結果を保持するために、ネットワークスケーリング係数 $\kappa$ は w.r.t. サンプルサイズ n を減少させるべきである。
しかし、$\kappa$ を減少させる場合、上記の結果が驚くほど誤りであることが証明される。
これは、トレーニングされたネットワークの出力値が$\kappa$がw.r.t.nを下げるとゼロになるためである。
この問題を解決するために、$\kappa$-affected値を削除することでキー境界を狭めます。
より厳密な解析によりスケーリングの問題を解き、元のNTKに基づく結果の検証を可能にする。
関連論文リスト
- Preconditioned Gradient Descent Finds Over-Parameterized Neural Networks with Sharp Generalization for Nonparametric Regression [8.130817534654089]
本稿では、勾配降下(GD)またはその変種により訓練された2層ニューラルネットワークによる非パラメトリック回帰を考察する。
ニューラルネットワークが早期停止を伴う新しいプレコンディション付きグラディエント・ディフレクション(PGD)でトレーニングされ、ターゲット関数がディープラーニング文献において広く研究されているスペクトルバイアスを持つ場合、トレーニングされたネットワークは、特に、極小値の最大速度が$cO(1/n4alpha/(4alpha+1)$で制限されたシャープな一般化をレンダリングする。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - The edge of chaos: quantum field theory and deep neural networks [0.0]
我々は、ディープニューラルネットワークの一般クラスに対応する量子場理論を明示的に構築する。
我々は、深さ$T$と幅$N$との比の摂動展開において、相関関数に対するループ補正を計算する。
我々の分析は、急速に出現するNN-QFT対応に対する第一原理のアプローチを提供し、ディープニューラルネットワークの臨界性の研究にいくつかの興味深い道を開く。
論文 参考訳(メタデータ) (2021-09-27T18:00:00Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。