論文の概要: On the Generalization Power of the Overfitted Three-Layer Neural Tangent
Kernel Model
- arxiv url: http://arxiv.org/abs/2206.02047v1
- Date: Sat, 4 Jun 2022 19:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 15:24:53.110293
- Title: On the Generalization Power of the Overfitted Three-Layer Neural Tangent
Kernel Model
- Title(参考訳): オーバーフィット三層ニューラルタンジェントカーネルモデルの一般化力について
- Authors: Peizhong Ju, Xiaojun Lin, Ness B. Shroff
- Abstract要約: 重畳された3層NTKの試験誤差は、2つの隠れた層のニューロンの数で減少する式によって上限づけられていることを示す。
また、学習可能な3層NTKの偏りのない集合は、ニューロンに様々な偏りがある2層NTKモデルよりも小さくないことを示す。
- 参考スコア(独自算出の注目度): 40.1300305775837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the generalization performance of overparameterized
3-layer NTK models. We show that, for a specific set of ground-truth functions
(which we refer to as the "learnable set"), the test error of the overfitted
3-layer NTK is upper bounded by an expression that decreases with the number of
neurons of the two hidden layers. Different from 2-layer NTK where there exists
only one hidden-layer, the 3-layer NTK involves interactions between two
hidden-layers. Our upper bound reveals that, between the two hidden-layers, the
test error descends faster with respect to the number of neurons in the second
hidden-layer (the one closer to the output) than with respect to that in the
first hidden-layer (the one closer to the input). We also show that the
learnable set of 3-layer NTK without bias is no smaller than that of 2-layer
NTK models with various choices of bias in the neurons. However, in terms of
the actual generalization performance, our results suggest that 3-layer NTK is
much less sensitive to the choices of bias than 2-layer NTK, especially when
the input dimension is large.
- Abstract(参考訳): 本稿では,オーバーパラメータ3層ntkモデルの一般化性能について検討する。
特定の基底構造関数(「学習可能な集合」と呼ぶ)に対して、過度に適合した3層NTKの試験誤差は、2つの隠れた層のニューロンの数で減少する式によって上界であることが示される。
隠蔽層が1つしかない2層NTKとは異なり、3層NTKは2つの隠蔽層間の相互作用を含む。
我々の上界は、2つの隠蔽層の間に、テストエラーが第2の隠蔽層(出力に近い)のニューロン数に対して、第1の隠蔽層(入力に近い)のニューロン数よりも速く降下していることを明らかにする。
また、学習可能な3層NTKの偏りのない集合は、ニューロンに様々な偏りがある2層NTKモデルよりも小さくないことを示す。
しかし,実際の一般化性能の観点からは,特に入力次元が大きい場合において,3層ntkは2層ntkよりもバイアス選択に対する感受性が低いことが示唆された。
関連論文リスト
- Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Neural (Tangent Kernel) Collapse [41.273479684974234]
この研究は、ニューラル・タンジェント・カーネル(NTK)とニューラル・コラプス(NC)という2つの重要な概念を橋渡しする。
平均二乗損失(MSE)で訓練されたDNNの力学を導出し,それらを解釈可能な位相に分解する。
我々は,DNNにおけるNCの出現をブロック構造NTKで証明するために,ダイナミクスの本質を捉える不変量を用いている。
論文 参考訳(メタデータ) (2023-05-25T18:56:34Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Identifying good directions to escape the NTK regime and efficiently
learn low-degree plus sparse polynomials [52.11466135206223]
広帯域2層ニューラルネットワークはターゲット関数に適合するためにTangent Kernel(NTK)とQuadNTKを併用可能であることを示す。
これにより、終端収束が得られ、NTKとQuadNTKの双方に対して証明可能なサンプル改善が保証される。
論文 参考訳(メタデータ) (2022-06-08T06:06:51Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - On the Generalization Power of Overfitted Two-Layer Neural Tangent
Kernel Models [42.72822331030195]
min $ell$-norm overfitting solution for the neural tangent kernel (NTK) model of a two-layer neural network. (英語)
本研究では, 地上真理関数に応じて, NTKモデルの試験誤差は, 「二重日射」と異なる特性を示すことを示した。
このクラス以外の関数に対しては、$n$ と $p$ の両方が大きかったとしても 0 に減少しない一般化エラーの低い境界を提供します。
論文 参考訳(メタデータ) (2021-03-09T06:24:59Z) - The Curious Case of Convex Neural Networks [12.56278477726461]
完全連結層と畳み込み層の両方に凸性制約を適用可能であることを示す。
a) IOC-NN(Input Output Convex Neural Networks)の自己正規化とオーバーフィッティング(オーバーフィッティング)の問題の低減; (b) 厳しい制約にもかかわらず、ベースマルチレイヤのパーセプトロンを上回り、ベースコンボリューションアーキテクチャと比較して同様のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-06-09T08:16:38Z) - Neural Kernels Without Tangents [34.527798084824575]
特徴の袋から「合成」カーネルを作成するための代数学について述べる。
これらの操作は, ニューラルタンジェントカーネル (NTK) の構成要素の多くに対応していることを示す。
論文 参考訳(メタデータ) (2020-03-04T18:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。