論文の概要: Some Theoretical Results on Layerwise Effective Dimension Oscillations in Finite Width ReLU Networks
- arxiv url: http://arxiv.org/abs/2507.07675v1
- Date: Thu, 10 Jul 2025 11:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.381619
- Title: Some Theoretical Results on Layerwise Effective Dimension Oscillations in Finite Width ReLU Networks
- Title(参考訳): 有限幅ReLUネットワークにおける層状有効次元振動に関する理論的結果
- Authors: Darshan Makwana,
- Abstract要約: 有限幅の完全連結ReLUネットワークにおける層状有効次元(特徴行列のランク)を解析する。
固定された$m$入力とランダムガウスウェイトに対して、$mtimes n$隠れ活性化行列の期待ランクに対する閉形式式を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze the layerwise effective dimension (rank of the feature matrix) in fully-connected ReLU networks of finite width. Specifically, for a fixed batch of $m$ inputs and random Gaussian weights, we derive closed-form expressions for the expected rank of the \$m\times n\$ hidden activation matrices. Our main result shows that $\mathbb{E}[EDim(\ell)]=m[1-(1-2/\pi)^\ell]+O(e^{-c m})$ so that the rank deficit decays geometrically with ratio $1-2 / \pi \approx 0.3634$. We also prove a sub-Gaussian concentration bound, and identify the "revival" depths at which the expected rank attains local maxima. In particular, these peaks occur at depths $\ell_k^*\approx(k+1/2)\pi/\log(1/\rho)$ with height $\approx (1-e^{-\pi/2}) m \approx 0.79m$. We further show that this oscillatory rank behavior is a finite-width phenomenon: under orthogonal weight initialization or strong negative-slope leaky-ReLU, the rank remains (nearly) full. These results provide a precise characterization of how random ReLU layers alternately collapse and partially revive the subspace of input variations, adding nuance to prior work on expressivity of deep networks.
- Abstract(参考訳): 有限幅の完全連結ReLUネットワークにおける層状有効次元(特徴行列のランク)を解析する。
具体的には、固定された$m$入力とランダムガウス重みのバッチに対して、$m\times n\$隠れ活性化行列の期待ランクに対する閉形式式を導出する。
主な結果は、$\mathbb{E}[EDim(\ell)]=m[1-(1-2/\pi)^\ell]+O(e^{-cm})$ である。
また、準ガウス濃度が有界であることを証明し、期待されるランクが局所的な最大値に達する「生き残る」深さを同定する。
特に、これらのピークは深さ$\ell_k^*\approx(k+1/2)\pi/\log(1/\rho)$で、高さ$\approx (1-e^{-\pi/2}) m \approx 0.79m$である。
さらに、この振動ランクの挙動は有限幅現象であり、直交重み初期化や強い負斜面リーク-ReLUの下では、そのランクは(ほぼ)完全であることを示す。
これらの結果は、ReLUのランダム層が、入力変動のサブ空間を交互に崩壊させ、部分的に復活させる様子を正確に評価し、ディープネットワークの表現性に関する先行研究にニュアンスを加えている。
関連論文リスト
- Constructive Universal Approximation and Finite Sample Memorization by Narrow Deep ReLU Networks [0.0]
我々は$N$の異なる点を持つデータセットが$mathbbRd$と$M$の出力クラスを正確に分類できることを示した。
また、任意の有界領域に対して$Lp(Omega; mathbbRm)$の普遍近似定理も証明する。
我々の結果は、深層ニューラルネットワークにおける制御性、表現性、およびトレーニングのダイナミクスを接続する統一的で解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Differential Equation Scaling Limits of Shaped and Unshaped Neural Networks [8.716913598251386]
類似した微分方程式に基づく2種類の不整形ネットワークのキャラクタリゼーションを求める。
我々は第1次補正を階層的相関に導出する。
これらの結果は、形状と未形状のネットワークアーキテクチャ間の接続を提供する。
論文 参考訳(メタデータ) (2023-10-18T16:15:10Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - Optimal Approximation Rates and Metric Entropy of ReLU$^k$ and Cosine
Networks [0.0]
対応する浅層ニューラルネットワークによって効率的に近似できる関数の最大のバナッハ空間は、集合 $pmsigma(omegacdot x + b)$ の閉凸包のゲージによってノルムが与えられる空間であることを示す。
これらのゲージ空間の単位球の$L2$-metricエントロピーの精度を確立し、その結果、浅いReLU$k$ネットワークに対する最適近似速度を導出する。
論文 参考訳(メタデータ) (2021-01-29T02:29:48Z) - Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文 参考訳(メタデータ) (2020-10-01T16:48:33Z) - Convergence of Langevin Monte Carlo in Chi-Squared and Renyi Divergence [8.873449722727026]
推定値である$widetildemathcalO(depsilon-1)$が,これらの測定値の既知レートを改善することを示す。
特に凸および1次滑らかなポテンシャルについて、LCCアルゴリズムは、これらの測定値の既知率を改善するために$widetildemathcalO(depsilon-1)$を推定する。
論文 参考訳(メタデータ) (2020-07-22T18:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。