論文の概要: Deformed semicircle law and concentration of nonlinear random matrices
for ultra-wide neural networks
- arxiv url: http://arxiv.org/abs/2109.09304v1
- Date: Mon, 20 Sep 2021 05:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 05:08:20.371277
- Title: Deformed semicircle law and concentration of nonlinear random matrices
for ultra-wide neural networks
- Title(参考訳): 超広義ニューラルネットワークにおける変形半円法則と非線形ランダム行列の濃度
- Authors: Zhichao Wang and Yizhe Zhu
- Abstract要約: 我々は,$f(X)=frac1sqrtd_1boldsymbolatopsigmaleft で与えられる2層完全結合ニューラルネットワークについて検討した。
我々は、$f(X)$:経験共役カーネル(CK)とニューラルタンジェントカーネル(NTK)の2つのカーネル行列の制限スペクトル分布を得る。
また、ランダムウェイトとリプシッツ活性化関数を持つ非線形ハンソン・ライトニューラルネットワークを提供する。
- 参考スコア(独自算出の注目度): 23.016484036619122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the two-layer fully connected neural network given by
$f(X)=\frac{1}{\sqrt{d_1}}\boldsymbol{a}^\top\sigma\left(WX\right)$, where
$X\in\mathbb{R}^{d_0\times n}$ is a deterministic data matrix,
$W\in\mathbb{R}^{d_1\times d_0}$ and $\boldsymbol{a}\in\mathbb{R}^{d_1}$ are
random Gaussian weights, and $\sigma$ is a nonlinear activation function. We
obtain the limiting spectral distributions of two kernel matrices related to
$f(X)$: the empirical conjugate kernel (CK) and neural tangent kernel (NTK),
beyond the linear-width regime ($d_1\asymp n$). Under the ultra-width regime
$d_1/n\to\infty$, with proper assumptions on $X$ and $\sigma$, a deformed
semicircle law appears. Such limiting law is first proved for general centered
sample covariance matrices with correlation and then specified for our neural
network model. We also prove non-asymptotic concentrations of empirical CK and
NTK around their limiting kernel in the spectral norm, and lower bounds on
their smallest eigenvalues. As an application, we verify the random feature
regression achieves the same asymptotic performance as its limiting kernel
regression in ultra-width limit. The limiting training and test errors for
random feature regression are calculated by corresponding kernel regression. We
also provide a nonlinear Hanson-Wright inequality suitable for neural networks
with random weights and Lipschitz activation functions.
- Abstract(参考訳): 本稿では,$f(x)=\frac{1}{\sqrt{d_1}}\boldsymbol{a}^\top\sigma\left(wx\right)$,ただし$x\in\mathbb{r}^{d_0\times n}$は決定論的データ行列であり,$w\in\mathbb{r}^{d_1\times d_0}$および$\boldsymbol{a}\in\mathbb{r}^{d_1}$はランダムガウス重であり、$\sigma$は非線形活性化関数である。
経験的共役カーネル (CK) とニューラルタンジェントカーネル (NTK) の2つのカーネル行列のスペクトル分布を線形幅レジーム (d_1\asymp n$) を超えて制限する。
超幅の体制では、$d_1/n\to\infty$、$X$と$\sigma$の適切な仮定により、変形半円法則が現れる。
このような制限則は、相関を持つ一般集中型サンプル共分散行列に対して初めて証明され、その後ニューラルネットワークモデルに規定される。
また、スペクトルノルムにおける制限核の周囲の経験的 CK と NTK の非漸近的な濃度、および最小固有値上の下限も証明する。
アプリケーションとして,超幅制限下でのカーネル回帰の制限と同じ漸近性能を達成するランダムな特徴回帰を検証する。
ランダムな特徴回帰に対する制限トレーニングとテストエラーは、対応するカーネル回帰によって計算される。
また、ランダムウェイトとリプシッツ活性化関数を有するニューラルネットワークに適した非線形ハンソンライト不等式を提供する。
関連論文リスト
- Universality of kernel random matrices and kernel regression in the quadratic regime [18.51014786894174]
本研究では、カーネルカーネルの回帰の研究を二次構造にまで拡張する。
我々は、元のカーネルランダム行列と二次カーネルランダム行列の差分に限定した作用素ノルム近似を確立する。
我々は、$n/d2$が非ゼロ定数に収束する二次状態におけるKRRの正確なトレーニングと一般化誤差を特徴づける。
論文 参考訳(メタデータ) (2024-08-02T07:29:49Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Optimal Rate of Kernel Regression in Large Dimensions [13.641780902673792]
我々はまず,大次元データに対する上界と最小値下界のカーネル回帰を特徴付ける汎用ツールを構築する。
我々は、新しいツールを使用して、カーネル回帰の余剰リスクの最小値が$n-1/2$であることを示す。
論文 参考訳(メタデータ) (2023-09-08T11:29:05Z) - LU decomposition and Toeplitz decomposition of a neural network [5.276232626689567]
任意の連続関数 $f : mathbbRn to mathbbRm$ がニューラルネットワークによる任意の精度に近似可能であることを示す。
我々のToeplitzの結果は、畳み込みニューラルネットワークの固定幅普遍近似である。
論文 参考訳(メタデータ) (2022-11-25T07:26:39Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Largest Eigenvalues of the Conjugate Kernel of Single-Layered Neural
Networks [0.0]
最大固有値は、よく知られた線形確率行列のアンサンブルと同じ極限(確率)を持つことを示す。
これは機械学習の応用にとって大きな関心事かもしれない。
論文 参考訳(メタデータ) (2022-01-13T00:48:20Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。