論文の概要: Near-optimal estimates for the $\ell^p$-Lipschitz constants of deep random ReLU neural networks
- arxiv url: http://arxiv.org/abs/2506.19695v1
- Date: Tue, 24 Jun 2025 15:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.689847
- Title: Near-optimal estimates for the $\ell^p$-Lipschitz constants of deep random ReLU neural networks
- Title(参考訳): 深部ランダムReLUニューラルネットワークの$\ell^p$-Lipschitz定数の近似推定
- Authors: Sjoerd Dirksen, Patrick Finke, Paul Geuchen, Dominik Stöger, Felix Voigtlaender,
- Abstract要約: ネットワークの幅が対数的であり,その深さが線形である要因によって,最大で異なる広帯域ネットワークに対して,高い確率上・下界を導出する。
注目すべきは、$ellp$-Lipschitz定数の振舞いは、 [1,2) $ と $p in [2,infty] $ の間に大きく異なることである。
- 参考スコア(独自算出の注目度): 3.684988521329369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the $\ell^p$-Lipschitz constants of ReLU neural networks $\Phi: \mathbb{R}^d \to \mathbb{R}$ with random parameters for $p \in [1,\infty]$. The distribution of the weights follows a variant of the He initialization and the biases are drawn from symmetric distributions. We derive high probability upper and lower bounds for wide networks that differ at most by a factor that is logarithmic in the network's width and linear in its depth. In the special case of shallow networks, we obtain matching bounds. Remarkably, the behavior of the $\ell^p$-Lipschitz constant varies significantly between the regimes $ p \in [1,2) $ and $ p \in [2,\infty] $. For $p \in [2,\infty]$, the $\ell^p$-Lipschitz constant behaves similarly to $\Vert g\Vert_{p'}$, where $g \in \mathbb{R}^d$ is a $d$-dimensional standard Gaussian vector and $1/p + 1/p' = 1$. In contrast, for $p \in [1,2)$, the $\ell^p$-Lipschitz constant aligns more closely to $\Vert g \Vert_{2}$.
- Abstract(参考訳): 本稿では、ReLU ニューラルネットワーク $\Phi: \mathbb{R}^d \to \mathbb{R}$ の $\ell^p$-Lipschitz 定数を、$p \in [1,\infty]$ のランダムパラメータで研究する。
重みの分布はHe初期化の変種に従い、バイアスは対称分布から引き出される。
ネットワークの幅が対数的であり,その深さが線形である要因によって,最大で異なる広帯域ネットワークに対して,高い確率上・下界を導出する。
浅層ネットワークの特別な場合、マッチング境界を得る。
注目すべきは、$\ell^p$-Lipschitz 定数の振舞いは、$ p \in [1,2) $ と $ p \in [2,\infty] $ の間に大きく異なることである。
2,\infty]$ に対して、$\ell^p$-Lipschitz 定数は $\Vert g\Vert_{p'}$ と同様に振る舞うが、$g \in \mathbb{R}^d$ は$d$次元標準ガウスベクトルであり、1/p + 1/p' = 1$ である。
対照的に、$p \in [1,2)$ の場合、$\ell^p$-Lipschitz 定数は $\Vert g \Vert_{2}$ とより密接に一致する。
関連論文リスト
- Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - $\ell_p$-Regression in the Arbitrary Partition Model of Communication [59.89387020011663]
コーディネータモデルにおける分散$ell_p$-regression問題のランダム化通信複雑性について考察する。
p = 2$、すなわち最小二乗回帰の場合、$tildeTheta(sd2 + sd/epsilon)$ bitsの最初の最適境界を与える。
p in (1,2)$ に対して、$tildeO(sd2/epsilon + sd/mathrmpoly(epsilon)$ upper bound を得る。
論文 参考訳(メタデータ) (2023-07-11T08:51:53Z) - A spectral least-squares-type method for heavy-tailed corrupted
regression with unknown covariance \& heterogeneous noise [2.019622939313173]
重み付き最小二乗線形回帰は、少なくとも$epsilon n$ arbitrary outliersの$n$のラベル特徴サンプルを破損させたと仮定して再検討する。
本稿では,$(Sigma,Xi) や $Xi$ の演算ノルムに関する知識を前提に,電力法に基づくほぼ最適に計算可能な推定器を提案する。
論文 参考訳(メタデータ) (2022-09-06T23:37:31Z) - Near-Linear Time and Fixed-Parameter Tractable Algorithms for Tensor
Decompositions [51.19236668224547]
テンソルの低階近似について検討し,テンソルトレインとタッカー分解に着目した。
テンソル列車の分解には、小さなビクリテリアランクを持つビクリテリア$(1 + eps)$-approximationアルゴリズムと、O(q cdot nnz(A))$ランニングタイムを与える。
さらに、任意のグラフを持つテンソルネットワークにアルゴリズムを拡張します。
論文 参考訳(メタデータ) (2022-07-15T11:55:09Z) - Low-degree learning and the metric entropy of polynomials [44.99833362998488]
少なくとも$Omega(sqrtvarepsilon)2dlog n leq log mathsfM(mathscrF_n,d,|cdot|_L,varepsilon)は2辺の推定値$c(1-varepsilon)2dlogを満たす。
論文 参考訳(メタデータ) (2022-03-17T23:52:08Z) - ReLU Network Approximation in Terms of Intrinsic Parameters [5.37133760455631]
固有パラメータ数の観点からReLUネットワークの近似誤差について検討する。
我々は、3つの固有パラメータしか持たないReLUネットワークを設計し、任意の誤差でH"古い連続関数を近似する。
論文 参考訳(メタデータ) (2021-11-15T18:20:38Z) - Deep Neural Networks with ReLU-Sine-Exponential Activations Break Curse
of Dimensionality on H\"older Class [6.476766717110237]
活性化関数としてReLU,sine,2x$のニューラルネットワークを構築した。
スーパー表現力に加えて、ReLU-sine-$2x$ネットワークで実装された関数は(一般化)微分可能である。
論文 参考訳(メタデータ) (2021-02-28T15:57:42Z) - Deep Network with Approximation Error Being Reciprocal of Width to Power
of Square Root of Depth [4.468952886990851]
超近似パワーを持つ新しいネットワークが導入された。
このネットワークは、各ニューロン内のFloor(lfloor xrfloor$)またはReLU(max0,x$)アクティベーション関数で構築されている。
論文 参考訳(メタデータ) (2020-06-22T13:27:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。