論文の概要: Deformed semicircle law and concentration of nonlinear random matrices
for ultra-wide neural networks
- arxiv url: http://arxiv.org/abs/2109.09304v3
- Date: Fri, 14 Apr 2023 04:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 17:32:57.092979
- Title: Deformed semicircle law and concentration of nonlinear random matrices
for ultra-wide neural networks
- Title(参考訳): 超広義ニューラルネットワークにおける変形半円法則と非線形ランダム行列の濃度
- Authors: Zhichao Wang and Yizhe Zhu
- Abstract要約: 本稿では、$f(X)$に付随する2つの経験的カーネル行列のスペクトル分布の制限について検討する。
経験的カーネルによって誘導されるランダムな特徴回帰は、超広範体制下でのカーネル回帰の制限と同じ性能を達成することを示す。
- 参考スコア(独自算出の注目度): 29.03095282348978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate a two-layer fully connected neural network of
the form $f(X)=\frac{1}{\sqrt{d_1}}\boldsymbol{a}^\top \sigma\left(WX\right)$,
where $X\in\mathbb{R}^{d_0\times n}$ is a deterministic data matrix,
$W\in\mathbb{R}^{d_1\times d_0}$ and $\boldsymbol{a}\in\mathbb{R}^{d_1}$ are
random Gaussian weights, and $\sigma$ is a nonlinear activation function. We
study the limiting spectral distributions of two empirical kernel matrices
associated with $f(X)$: the empirical conjugate kernel (CK) and neural tangent
kernel (NTK), beyond the linear-width regime ($d_1\asymp n$). We focus on the
$\textit{ultra-wide regime}$, where the width $d_1$ of the first layer is much
larger than the sample size $n$. Under appropriate assumptions on $X$ and
$\sigma$, a deformed semicircle law emerges as $d_1/n\to\infty$ and
$n\to\infty$. We first prove this limiting law for generalized sample
covariance matrices with some dependency. To specify it for our neural network
model, we provide a nonlinear Hanson-Wright inequality that is suitable for
neural networks with random weights and Lipschitz activation functions. We also
demonstrate non-asymptotic concentrations of the empirical CK and NTK around
their limiting kernels in the spectral norm, along with lower bounds on their
smallest eigenvalues. As an application, we show that random feature regression
induced by the empirical kernel achieves the same asymptotic performance as its
limiting kernel regression under the ultra-wide regime. This allows us to
calculate the asymptotic training and test errors for random feature regression
using the corresponding kernel regression.
- Abstract(参考訳): 本稿では、2層完全連結ニューラルネットワークである$f(x)=\frac{1}{\sqrt{d_1}}\boldsymbol{a}^\top \sigma\left(wx\right)$,ただし$x\in\mathbb{r}^{d_0\times n}$ は決定論的データ行列であり、$w\in\mathbb{r}^{d_1\times d_0}$ および $\boldsymbol{a}\in\mathbb{r}^{d_1}$ はランダムガウス重であり、$\sigma$ は非線形活性化関数である。
実験的共役核 (ck) と神経接核 (ntk) の2つの経験的核行列の限界スペクトル分布について, 線形-幅レジーム (d_1\asymp n$) を超えて検討した。
ここでは、最初のレイヤの幅$d_1$がサンプルサイズ$n$よりもはるかに大きい、$\textit{ultra-wide regime}$に注目します。
X$ と $\sigma$ の適切な仮定の下で、変形半円法則は $d_1/n\to\infty$ と $n\to\infty$ として現れる。
まず、依存性のある一般化されたサンプル共分散行列に対するこの制限則を証明します。
これをニューラルネットワークモデルに指定するために,ランダム重みとリプシッツ活性化関数を有するニューラルネットワークに適した非線形ハンソンライト不等式を提案する。
また、スペクトルノルムにおいて、経験的 CK と NTK の限界核周辺における非漸近的な濃度と、最小固有値の下位境界も示す。
応用として、経験的カーネルによって誘導されるランダムな特徴回帰は、超広範体制下でのカーネル回帰を制限するのと同じ漸近的性能を達成することを示す。
これにより、対応するカーネル回帰を用いて、ランダムな特徴回帰に対する漸近的トレーニングとテストエラーを計算することができる。
関連論文リスト
- Universality of kernel random matrices and kernel regression in the quadratic regime [18.51014786894174]
本研究では、カーネルカーネルの回帰の研究を二次構造にまで拡張する。
我々は、元のカーネルランダム行列と二次カーネルランダム行列の差分に限定した作用素ノルム近似を確立する。
我々は、$n/d2$が非ゼロ定数に収束する二次状態におけるKRRの正確なトレーニングと一般化誤差を特徴づける。
論文 参考訳(メタデータ) (2024-08-02T07:29:49Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Optimal Rate of Kernel Regression in Large Dimensions [13.641780902673792]
我々はまず,大次元データに対する上界と最小値下界のカーネル回帰を特徴付ける汎用ツールを構築する。
我々は、新しいツールを使用して、カーネル回帰の余剰リスクの最小値が$n-1/2$であることを示す。
論文 参考訳(メタデータ) (2023-09-08T11:29:05Z) - LU decomposition and Toeplitz decomposition of a neural network [5.276232626689567]
任意の連続関数 $f : mathbbRn to mathbbRm$ がニューラルネットワークによる任意の精度に近似可能であることを示す。
我々のToeplitzの結果は、畳み込みニューラルネットワークの固定幅普遍近似である。
論文 参考訳(メタデータ) (2022-11-25T07:26:39Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Largest Eigenvalues of the Conjugate Kernel of Single-Layered Neural
Networks [0.0]
最大固有値は、よく知られた線形確率行列のアンサンブルと同じ極限(確率)を持つことを示す。
これは機械学習の応用にとって大きな関心事かもしれない。
論文 参考訳(メタデータ) (2022-01-13T00:48:20Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。