論文の概要: Eigenvalue distribution of the Neural Tangent Kernel in the quadratic scaling
- arxiv url: http://arxiv.org/abs/2508.20036v1
- Date: Wed, 27 Aug 2025 16:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.711145
- Title: Eigenvalue distribution of the Neural Tangent Kernel in the quadratic scaling
- Title(参考訳): 2次スケーリングにおけるニューラルタンジェントカーネルの固有値分布
- Authors: Lucas Benigni, Elliot Paquette,
- Abstract要約: 本研究では,2層ニューラルネットワークのニューラルネットワークの固有値分布を,次元の特定のスケーリングの下で計算する。
我々は,この分布を,$sigma$と$D$に依存する決定論的分布を持つマルテンコ-パストゥル分布の自由乗法的畳み込みとして記述する。
- 参考スコア(独自算出の注目度): 5.142160533428576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We compute the asymptotic eigenvalue distribution of the neural tangent kernel of a two-layer neural network under a specific scaling of dimension. Namely, if $X\in\mathbb{R}^{n\times d}$ is an i.i.d random matrix, $W\in\mathbb{R}^{d\times p}$ is an i.i.d $\mathcal{N}(0,1)$ matrix and $D\in\mathbb{R}^{p\times p}$ is a diagonal matrix with i.i.d bounded entries, we consider the matrix \[ \mathrm{NTK} = \frac{1}{d}XX^\top \odot \frac{1}{p} \sigma'\left( \frac{1}{\sqrt{d}}XW \right)D^2 \sigma'\left( \frac{1}{\sqrt{d}}XW \right)^\top \] where $\sigma'$ is a pseudo-Lipschitz function applied entrywise and under the scaling $\frac{n}{dp}\to \gamma_1$ and $\frac{p}{d}\to \gamma_2$. We describe the asymptotic distribution as the free multiplicative convolution of the Marchenko--Pastur distribution with a deterministic distribution depending on $\sigma$ and $D$.
- Abstract(参考訳): 本研究では,2層ニューラルネットワークのニューラル・タンジェント・カーネルの漸近固有値分布を,次元の特定のスケーリングの下で計算する。
すなわち、$X\in\mathbb{R}^{n\times d}$ が i.i.d 乱行列、$W\in\mathbb{R}^{d\times p}$ が i.i.d $\mathcal{N}(0,1)$Matrix と $D\in\mathbb{R}^{p\times p}$ が i.i.d 有界成分を持つ対角行列であるなら、行列 \[ \mathrm{NTK} = \frac{1}{d}XX^\top \odot \frac{1}{p} \sigma'\left(\frac{1}{sqrt{d}}XW\right)D^2 \sigma'\left(\frac{1}{sqrt{d}}XW\right)D^2 \sigma'\left(\frac{1}{d}XW\right)$D\in\mathbb{R}^{p\times p}$ は $1}{p} で表される。
この漸近分布を,$\sigma$と$D$に依存する決定論的分布を持つマルテンコ-パストゥル分布の自由乗法的畳み込みとして記述する。
関連論文リスト
- In-depth Analysis of Low-rank Matrix Factorisation in a Federated Setting [21.002519159190538]
我々は分散アルゴリズムを解析し、$N$クライアント上で低ランク行列の分解を計算する。
グローバルな$mathbfV$ in $mathbbRd times r$をすべてのクライアントに共通とし、ローカルな$mathbfUi$ in $mathbbRn_itimes r$を得る。
論文 参考訳(メタデータ) (2024-09-13T12:28:42Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Overparametrized linear dimensionality reductions: From projection pursuit to two-layer neural networks [8.74634652691576]
我々は$mathbbRd$の$nデータポイントのクラウドを考え、$mathbbRd$の$m$次元部分空間上のすべての射影を考える。
この確率分布の集まりは、$n,d$が大きくなるとどのように見えるか?
Kullback-Leibler の発散と R'enyi の情報次元の点で鋭い境界を証明している。
論文 参考訳(メタデータ) (2022-06-14T00:07:33Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Spectral properties of sample covariance matrices arising from random
matrices with independent non identically distributed columns [50.053491972003656]
関数 $texttr(AR(z))$, for $R(z) = (frac1nXXT- zI_p)-1$ and $Ain mathcal M_p$ deterministic, have a standard deviation of order $O(|A|_* / sqrt n)$.
ここでは、$|mathbb E[R(z)] - tilde R(z)|_F を示す。
論文 参考訳(メタデータ) (2021-09-06T14:21:43Z) - Stochastic behavior of outcome of Schur-Weyl duality measurement [45.41082277680607]
我々は、$n$ qubits上のシュル=ワイル双対性に基づく分解によって定義される測定に焦点をあてる。
我々は、$n$が無限大に進むとき、中心極限の一種を含む様々な種類の分布を導出する。
論文 参考訳(メタデータ) (2021-04-26T15:03:08Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。