Fugu-MT 論文翻訳(概要): Some Theoretical Results on Layerwise Effective Dimension Oscillations in Finite Width ReLU Networks

論文の概要: Some Theoretical Results on Layerwise Effective Dimension Oscillations in Finite Width ReLU Networks

arxiv url: http://arxiv.org/abs/2507.07675v1
Date: Thu, 10 Jul 2025 11:54:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-11 16:40:15.381619
Title: Some Theoretical Results on Layerwise Effective Dimension Oscillations in Finite Width ReLU Networks
Title（参考訳）: 有限幅ReLUネットワークにおける層状有効次元振動に関する理論的結果
Authors: Darshan Makwana,
Abstract要約: 有限幅の完全連結ReLUネットワークにおける層状有効次元(特徴行列のランク)を解析する。固定された$m$入力とランダムガウスウェイトに対して、$mtimes n$隠れ活性化行列の期待ランクに対する閉形式式を導出する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We analyze the layerwise effective dimension (rank of the feature matrix) in fully-connected ReLU networks of finite width. Specifically, for a fixed batch of $m$ inputs and random Gaussian weights, we derive closed-form expressions for the expected rank of the \$m\times n\$ hidden activation matrices. Our main result shows that $\mathbb{E}[EDim(\ell)]=m[1-(1-2/\pi)^\ell]+O(e^{-c m})$ so that the rank deficit decays geometrically with ratio $1-2 / \pi \approx 0.3634$. We also prove a sub-Gaussian concentration bound, and identify the "revival" depths at which the expected rank attains local maxima. In particular, these peaks occur at depths $\ell_k^*\approx(k+1/2)\pi/\log(1/\rho)$ with height $\approx (1-e^{-\pi/2}) m \approx 0.79m$. We further show that this oscillatory rank behavior is a finite-width phenomenon: under orthogonal weight initialization or strong negative-slope leaky-ReLU, the rank remains (nearly) full. These results provide a precise characterization of how random ReLU layers alternately collapse and partially revive the subspace of input variations, adding nuance to prior work on expressivity of deep networks.
Abstract（参考訳）: 有限幅の完全連結ReLUネットワークにおける層状有効次元(特徴行列のランク)を解析する。具体的には、固定された$m$入力とランダムガウス重みのバッチに対して、$m\times n\$隠れ活性化行列の期待ランクに対する閉形式式を導出する。主な結果は、$\mathbb{E}[EDim(\ell)]=m[1-(1-2/\pi)^\ell]+O(e^{-cm})$ である。また、準ガウス濃度が有界であることを証明し、期待されるランクが局所的な最大値に達する「生き残る」深さを同定する。特に、これらのピークは深さ$\ell_k^*\approx(k+1/2)\pi/\log(1/\rho)$で、高さ$\approx (1-e^{-\pi/2}) m \approx 0.79m$である。さらに、この振動ランクの挙動は有限幅現象であり、直交重み初期化や強い負斜面リーク-ReLUの下では、そのランクは(ほぼ)完全であることを示す。これらの結果は、ReLUのランダム層が、入力変動のサブ空間を交互に崩壊させ、部分的に復活させる様子を正確に評価し、ディープネットワークの表現性に関する先行研究にニュアンスを加えている。

関連論文リスト

Finite-Dimensional Gaussian Approximation for Deep Neural Networks: Universality in Random Weights [15.424946932398713]
有限次モーメントを持つ無作為重みを持つディープニューラルネットワークの有限次元分布(FDD)について検討する。我々は、FDDとガウス極限の間のワッサーシュタイン-1$ノルムにガウス近似境界を確立する。すべての幅が共通のスケールパラメータ$n$に比例し、隠された層が$L-1$である特別な場合、任意の$epsilon > 0$に対して$n-(1/6)L-1 + epsilon$の収束率を得る。
論文参考訳（メタデータ） (2025-07-16T23:41:09Z)
Constructive Universal Approximation and Finite Sample Memorization by Narrow Deep ReLU Networks [0.0]
我々は$N$の異なる点を持つデータセットが$mathbbRd$と$M$の出力クラスを正確に分類できることを示した。また、任意の有界領域に対して$Lp(Omega; mathbbRm)$の普遍近似定理も証明する。我々の結果は、深層ニューラルネットワークにおける制御性、表現性、およびトレーニングのダイナミクスを接続する統一的で解釈可能なフレームワークを提供する。
論文参考訳（メタデータ） (2024-09-10T14:31:21Z)
Differential Equation Scaling Limits of Shaped and Unshaped Neural Networks [8.716913598251386]
類似した微分方程式に基づく2種類の不整形ネットワークのキャラクタリゼーションを求める。我々は第1次補正を階層的相関に導出する。これらの結果は、形状と未形状のネットワークアーキテクチャ間の接続を提供する。
論文参考訳（メタデータ） (2023-10-18T16:15:10Z)
Effective Minkowski Dimension of Deep Nonparametric Regression: Function Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文参考訳（メタデータ） (2023-06-26T17:13:31Z)
Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文参考訳（メタデータ） (2023-05-13T01:10:49Z)
Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文参考訳（メタデータ） (2022-12-29T20:57:46Z)
A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文参考訳（メタデータ） (2022-02-23T16:10:23Z)
Active Sampling for Linear Regression Beyond the $\ell_2$ Norm [70.49273459706546]
対象ベクトルの少数のエントリのみを問合せすることを目的とした線形回帰のためのアクティブサンプリングアルゴリズムについて検討する。我々はこの$d$への依存が対数的要因まで最適であることを示す。また、損失関数に対して最初の全感度上界$O(dmax1,p/2log2 n)$を提供し、最大で$p$成長する。
論文参考訳（メタデータ） (2021-11-09T00:20:01Z)
Optimal Approximation Rates and Metric Entropy of ReLU$^k$ and Cosine Networks [0.0]
対応する浅層ニューラルネットワークによって効率的に近似できる関数の最大のバナッハ空間は、集合 $pmsigma(omegacdot x + b)$ の閉凸包のゲージによってノルムが与えられる空間であることを示す。これらのゲージ空間の単位球の$L2$-metricエントロピーの精度を確立し、その結果、浅いReLU$k$ネットワークに対する最適近似速度を導出する。
論文参考訳（メタデータ） (2021-01-29T02:29:48Z)
Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文参考訳（メタデータ） (2020-10-01T16:48:33Z)
Convergence of Langevin Monte Carlo in Chi-Squared and Renyi Divergence [8.873449722727026]
推定値である$widetildemathcalO(depsilon-1)$が,これらの測定値の既知レートを改善することを示す。特に凸および1次滑らかなポテンシャルについて、LCCアルゴリズムは、これらの測定値の既知率を改善するために$widetildemathcalO(depsilon-1)$を推定する。
論文参考訳（メタデータ） (2020-07-22T18:18:28Z)
Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文参考訳（メタデータ） (2020-07-09T07:09:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。