論文の概要: The Spectral Dimension of NTKs is Constant: A Theory of Implicit Regularization, Finite-Width Stability, and Scalable Estimation
- arxiv url: http://arxiv.org/abs/2512.00860v1
- Date: Sun, 30 Nov 2025 12:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.460032
- Title: The Spectral Dimension of NTKs is Constant: A Theory of Implicit Regularization, Finite-Width Stability, and Scalable Estimation
- Title(参考訳): NTKsのスペクトル次元は一定である:不規則正規化、有限幅安定性、およびスケーラブル推定の理論
- Authors: Praveen Anilkumar Shukla,
- Abstract要約: 定数極限法則 $lim_ntoinfty mathbbE[r_texteff(K_n)] = mathbbE[k(x, x)]2 を証明する。
有限幅 NTK が作用素ノルムにおいて $O_p(m-1/2)$ でずれるなら、$r_texteff$ は $O_p(m-1/2)$ で変化する。
ランダムを用いたスケーラブルな推定器を設計する
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern deep networks are heavily overparameterized yet often generalize well, suggesting a form of low intrinsic complexity not reflected by parameter counts. We study this complexity at initialization through the effective rank of the Neural Tangent Kernel (NTK) Gram matrix, $r_{\text{eff}}(K) = (\text{tr}(K))^2/\|K\|_F^2$. For i.i.d. data and the infinite-width NTK $k$, we prove a constant-limit law $\lim_{n\to\infty} \mathbb{E}[r_{\text{eff}}(K_n)] = \mathbb{E}[k(x, x)]^2 / \mathbb{E}[k(x, x')^2] =: r_\infty$, with sub-Gaussian concentration. We further establish finite-width stability: if the finite-width NTK deviates in operator norm by $O_p(m^{-1/2})$ (width $m$), then $r_{\text{eff}}$ changes by $O_p(m^{-1/2})$. We design a scalable estimator using random output probes and a CountSketch of parameter Jacobians and prove conditional unbiasedness and consistency with explicit variance bounds. On CIFAR-10 with ResNet-20/56 (widths 16/32) across $n \in \{10^3, 5\times10^3, 10^4, 2.5\times10^4, 5\times10^4\}$, we observe $r_{\text{eff}} \approx 1.0\text{--}1.3$ and slopes $\approx 0$ in $n$, consistent with the theory, and the kernel-moment prediction closely matches fitted constants.
- Abstract(参考訳): 現代のディープネットワークは過度にパラメータ化されているが、よく一般化されており、パラメータ数に反映されない内在的な複雑さの形式を示唆している。
我々は、この複雑性を、Nutral Tangent Kernel (NTK) Gram matrix, $r_{\text{eff}}(K) = (\text{tr}(K))^2/\|K\|_F^2$の有効ランクによる初期化において研究する。
すなわち、データと無限幅 NTK $k$ に対して、定数極限法 $\lim_{n\to\infty} \mathbb{E}[r_{\text{eff}}(K_n)] = \mathbb{E}[k(x, x)]^2 / \mathbb{E}[k(x, x')^2] =: r_\infty$ をガウス濃度で証明する。
有限幅 NTK が作用素ノルムにおいて $O_p(m^{-1/2})$ (width $m$),$r_{\text{eff}}$ change by $O_p(m^{-1/2})$ でずれるとき、さらに有限幅安定性を確立する。
ランダムな出力プローブとパラメータヤコビアンのCountSketchを用いてスケーラブルな推定器を設計し、条件の不偏性および明示的な分散境界との整合性を証明する。
CIFAR-10 では、$n \in \{10^3, 5\times10^3, 10^4, 2.5\times10^4, 5\times10^4\}$, $r_{\text{eff}} \approx 1.0\text{-}1.3$, slopes $\approx 0$ in $n$, and the kernel-moment prediction closely fit constants。
関連論文リスト
- MLPs at the EOC: Concentration of the NTK [7.826806223782053]
ニューラルタンジェント(NTK)のK_theta濃度について検討した。
我々は、勾配独立性の近似バージョンが有限幅で成り立つことを証明した。
この限界を正確に近似するためには, 十分な濃度に対して, bbN+1$の約$mに対して, $m_k = k2 m$として, 隠蔽層幅を2次的に成長させる必要がある。
論文 参考訳(メタデータ) (2025-01-24T18:58:50Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - The ODE Method for Asymptotic Statistics in Stochastic Approximation and Reinforcement Learning [3.8098187557917464]
この論文は$d$-dimensional recursion approximation, $$theta_n+1=theta_n + alpha_n + 1 f(theta_n, Phi_n+1)に関するものである。
主な結果は、ドスカー・バラダン・リャプノフドリフト条件(DV3)の平均流とバージョンに関する追加条件の下で確立される。
a example is given where $f$ and $barf$ are linear in $theta$, and $Phi$ is a geometryal.
論文 参考訳(メタデータ) (2021-10-27T13:38:25Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - AI without networks [0.0]
我々は、生成モデリングを取り入れたAIのためのネットワークフリーフレームワークを開発する。
我々は、この枠組みを、民族学、制御理論、数学の3つの異なる分野の例で示す。
また、生成AIによる倫理的法的課題に対処するために、この枠組みに基づいて容易に計算された信用割当手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T05:50:02Z) - Optimal Approximation Rate of ReLU Networks in terms of Width and Depth [5.37133760455631]
本稿では,深部フィードフォワードニューラルネットワークの幅と深さの近似力に着目した。
幅$mathcalObig(maxdlfloor N1/drfloor,, N+2big)$と深さ$mathcalO(L)$のReLUネットワークは、近似レート$mathcalObig(lambdasqrtd (N2L2ln)で$[0,1]d$のH"古い連続関数を近似できる。
論文 参考訳(メタデータ) (2021-02-28T13:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。