論文の概要: Spectral Bias Outside the Training Set for Deep Networks in the Kernel
Regime
- arxiv url: http://arxiv.org/abs/2206.02927v1
- Date: Mon, 6 Jun 2022 22:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 13:45:35.821787
- Title: Spectral Bias Outside the Training Set for Deep Networks in the Kernel
Regime
- Title(参考訳): カーネル・レジームにおける深層ネットワークのためのトレーニングセット外のスペクトルバイアス
- Authors: Benjamin Bowman, Guido Montufar
- Abstract要約: ネットワークは、トレーニングセットだけでなく、入力空間全体にわたって、ニューラルネットワークの上位固有関数を学習するために偏りがあることが示される。
このバイアスはモデルアーキテクチャと入力分布のみに依存する。
我々は,漁業情報マトリックスの低効率な位置からの局所的な容量制御は理論的には未熟である,と結論づける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide quantitative bounds measuring the $L^2$ difference in function
space between the trajectory of a finite-width network trained on finitely many
samples from the idealized kernel dynamics of infinite width and infinite data.
An implication of the bounds is that the network is biased to learn the top
eigenfunctions of the Neural Tangent Kernel not just on the training set but
over the entire input space. This bias depends on the model architecture and
input distribution alone and thus does not depend on the target function which
does not need to be in the RKHS of the kernel. The result is valid for deep
architectures with fully connected, convolutional, and residual layers.
Furthermore the width does not need to grow polynomially with the number of
samples in order to obtain high probability bounds up to a stopping time. The
proof exploits the low-effective-rank property of the Fisher Information Matrix
at initialization, which implies a low effective dimension of the model (far
smaller than the number of parameters). We conclude that local capacity control
from the low effective rank of the Fisher Information Matrix is still
underexplored theoretically.
- Abstract(参考訳): 無限幅と無限データの理想化されたカーネルダイナミクスから有限個のサンプルで訓練された有限幅ネットワークの軌道間の関数空間の$l^2$差を測定する定量的境界を提供する。
境界の含意は、ネットワークが、トレーニングセット上だけでなく、入力空間全体にわたって、神経接核の最上位固有関数を学ぶように偏っていることである。
このバイアスはモデルアーキテクチャと入力分布のみに依存しており、したがって、カーネルのrkhsにある必要のない対象関数に依存しない。
この結果は、完全連結、畳み込み、および残留層を持つ深いアーキテクチャにおいて有効である。
さらに、その幅は、停止時間までの高い確率境界を得るために、サンプル数と多項式的に成長する必要はない。
この証明は、初期化時のフィッシャー情報行列の低効率な特性を利用しており、これはモデルの低有効次元(パラメータの数よりもはるかに小さい)を意味する。
水産情報マトリックスの低効率な位置からの局所的な容量制御は理論的には未解明である。
関連論文リスト
- Sharper Guarantees for Learning Neural Network Classifiers with Gradient Methods [43.32546195968771]
本研究では,スムーズなアクティベーションを有するニューラルネットワークに対する勾配法におけるデータ依存収束と一般化挙動について検討する。
我々の結果は、よく確立されたRadecher複雑性に基づく境界の欠点を改善した。
XOR分布の分類において、NTK体制の結果に対して大きなステップサイズが大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2024-10-13T21:49:29Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Globally Gated Deep Linear Networks [3.04585143845864]
我々はGGDLN(Globally Gated Deep Linear Networks)を導入する。
有限幅熱力学極限におけるこれらのネットワークの一般化特性の正確な方程式を導出する。
我々の研究は、有限幅の非線形ネットワークの族における学習に関する最初の正確な理論解である。
論文 参考訳(メタデータ) (2022-10-31T16:21:56Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Tight Bounds on the Smallest Eigenvalue of the Neural Tangent Kernel for
Deep ReLU Networks [21.13299067136635]
深部ReLUネットワークに対するNTK行列の最小固有値に厳密な境界を与える。
有限幅設定では、我々が考えるネットワークアーキテクチャは非常に一般的である。
論文 参考訳(メタデータ) (2020-12-21T19:32:17Z) - Kernelized Classification in Deep Networks [49.47339560731506]
本稿では,ディープネットワークのためのカーネル分類層を提案する。
訓練中のSoftmaxクロスエントロピー損失関数のカーネルトリックを用いて非線形分類層を提唱する。
提案する非線形分類層は,複数のデータセットやタスクに対して有用であることを示す。
論文 参考訳(メタデータ) (2020-12-08T21:43:19Z) - Learning Deep ReLU Networks Is Fixed-Parameter Tractable [21.625005195943707]
ガウス入力に関して未知のReLUネットワークを学習する問題を考察する。
ランニング時間が周囲次元の固定重みとなるアルゴリズムを与える。
我々の境界は、隠れた単位数、深さ、スペクトルノルムのスペクトルノルム、リプシッツ定数に依存する。
論文 参考訳(メタデータ) (2020-09-28T17:58:43Z) - How Powerful are Shallow Neural Networks with Bandlimited Random
Weights? [25.102870584507244]
制限深度2バンドランダムニューラルネットワークの表現力について検討する。
ランダムネットは、隠れた層パラメータがランダムな帯域幅で凍結されるニューラルネットワークである。
論文 参考訳(メタデータ) (2020-08-19T13:26:12Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。
その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。
しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文 参考訳(メタデータ) (2020-01-28T16:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。