論文の概要: Optimal Approximation Rate of ReLU Networks in terms of Width and Depth
- arxiv url: http://arxiv.org/abs/2103.00502v1
- Date: Sun, 28 Feb 2021 13:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:18:23.459172
- Title: Optimal Approximation Rate of ReLU Networks in terms of Width and Depth
- Title(参考訳): 幅・深さを考慮したReLUネットワークの最適近似速度
- Authors: Zuowei Shen, Haizhao Yang, Shijun Zhang
- Abstract要約: 本稿では,深部フィードフォワードニューラルネットワークの幅と深さの近似力に着目した。
幅$mathcalObig(maxdlfloor N1/drfloor,, N+2big)$と深さ$mathcalO(L)$のReLUネットワークは、近似レート$mathcalObig(lambdasqrtd (N2L2ln)で$[0,1]d$のH"古い連続関数を近似できる。
- 参考スコア(独自算出の注目度): 5.37133760455631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper concentrates on the approximation power of deep feed-forward
neural networks in terms of width and depth. It is proved by construction that
ReLU networks with width $\mathcal{O}\big(\max\{d\lfloor N^{1/d}\rfloor,\,
N+2\}\big)$ and depth $\mathcal{O}(L)$ can approximate a H\"older continuous
function on $[0,1]^d$ with an approximation rate
$\mathcal{O}\big(\lambda\sqrt{d} (N^2L^2\ln N)^{-\alpha/d}\big)$, where
$\alpha\in (0,1]$ and $\lambda>0$ are H\"older order and constant,
respectively. Such a rate is optimal up to a constant in terms of width and
depth separately, while existing results are only nearly optimal without the
logarithmic factor in the approximation rate. More generally, for an arbitrary
continuous function $f$ on $[0,1]^d$, the approximation rate becomes
$\mathcal{O}\big(\,\sqrt{d}\,\omega_f\big( (N^2L^2\ln N)^{-1/d}\big)\,\big)$,
where $\omega_f(\cdot)$ is the modulus of continuity. We also extend our
analysis to any continuous function $f$ on a bounded set. Particularly, if ReLU
networks with depth $31$ and width $\mathcal{O}(N)$ are used to approximate
one-dimensional Lipschitz continuous functions on $[0,1]$ with a Lipschitz
constant $\lambda>0$, the approximation rate in terms of the total number of
parameters, $W=\mathcal{O}(N^2)$, becomes $\mathcal{O}(\tfrac{\lambda}{W\ln
W})$, which has not been discovered in the literature for fixed-depth ReLU
networks.
- Abstract(参考訳): 本稿では,深部フィードフォワードニューラルネットワークの幅と深さの近似力に着目した。
構成により、幅 $\mathcal{O}\big(\max\{d\lfloor N^{1/d}\rfloor,\,N+2\}\big)$ と深さ $\mathcal{O}(L)$ の H\"older continuous function on $[0,1]^d$ の近似レート $\mathcal{O}\big(\lambda\sqrt{d} (N^2L^2\ln N)^{-\alpha/d}\big)$ を持つ ReLUネットワークがそれぞれ H\alpha\in (0,1]$ と $\lambda>0$ は H\"older order and constantである。
このような速度は、幅と深さの点で別々に一定まで最適であるが、既存の結果は近似率の対数係数なしではほぼ最適である。
より一般的には、任意の連続関数 $f$ on $[0,1]^d$ に対して、近似レートは $\mathcal{O}\big(\,\sqrt{d}\,\omega_f\big((N^2L^2\ln N)^{-1/d}\big)\,\big)$ となる。
また、境界付き集合上の任意の連続関数 $f$ に解析を拡張します。
特に、深さ$1$と幅$\mathcal{O}(N)$がLipschitz定数$\lambda>0$で1次元Lipschitz連続関数を$[0,1]$で近似するために使用される場合、パラメータの総数の観点から近似レートは$W=\mathcal{O}(N^2)$となり、固定深度ReLUネットワークの文献では発見されていない$\mathcal{O}(\tfrac{\lambda}{W\ln W})$となる。
関連論文リスト
- Nearly Optimal Regret for Decentralized Online Convex Optimization [58.372148767703955]
分散オンライン凸最適化(D-OCO)は,局所計算と通信のみを用いて,グローバルな損失関数の列を最小化することを目的としている。
我々は凸関数と強い凸関数の残差をそれぞれ低減できる新しいD-OCOアルゴリズムを開発した。
我々のアルゴリズムは、$T$、$n$、$rho$の点でほぼ最適です。
論文 参考訳(メタデータ) (2024-02-14T13:44:16Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its
Momentum Extension Measured by $\ell_1$ Norm: Better Dependence on the
Dimension [70.4788692766068]
本稿では古典的RMSPropPropとその運動量拡張について考察する。
これにより$frac1Tsum_k=1Teleft[|nabla f(xk)|_1right]leq O(fracsqrtdT1/4)$が$ell_$ノルムで測定される。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - The Approximate Degree of DNF and CNF Formulas [95.94432031144716]
すべての$delta>0に対して、$はCNFと近似次数$Omega(n1-delta)の式を構築し、基本的には$nの自明な上限に一致する。
すべての$delta>0$に対して、これらのモデルは$Omega(n1-delta)$、$Omega(n/4kk2)1-delta$、$Omega(n/4kk2)1-delta$が必要です。
論文 参考訳(メタデータ) (2022-09-04T10:01:39Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Faster Rates of Convergence to Stationary Points in Differentially
Private Optimization [31.46358820048179]
リプシッツの定常点と滑らかな関数を$(varepsilon,delta)$-differential privacy(DP)で近似する問題について検討する。
点 $widehatw$ は関数 $mathbbRdrightarrowmathbbR$ if $|nabla F(widehatw)|leq alpha$ の $alpha$-stationary point と呼ばれる。
我々は$tildeObig(big[)を見つける新しい効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-06-02T02:43:44Z) - Low-degree learning and the metric entropy of polynomials [49.1574468325115]
少なくとも$Omega(sqrtvarepsilon)2dlog n leq log mathsfM(mathscrF_n,d,|cdot|_L,varepsilon)は2辺の推定値$c(1-varepsilon)2dlogを満たす。
論文 参考訳(メタデータ) (2022-03-17T23:52:08Z) - Deep Neural Networks with ReLU-Sine-Exponential Activations Break Curse
of Dimensionality on H\"older Class [6.476766717110237]
活性化関数としてReLU,sine,2x$のニューラルネットワークを構築した。
スーパー表現力に加えて、ReLU-sine-$2x$ネットワークで実装された関数は(一般化)微分可能である。
論文 参考訳(メタデータ) (2021-02-28T15:57:42Z) - Neural Network Approximation: Three Hidden Layers Are Enough [4.468952886990851]
超近似パワーを有する3層ニューラルネットワークを導入する。
ネットワークはフロア関数(lfloor xrfloor$)、指数関数(2x$)、ステップ関数(1_xgeq 0$)、または各ニューロンの活性化関数としてのそれらの構成で構築される。
論文 参考訳(メタデータ) (2020-10-25T18:30:57Z) - Deep Network with Approximation Error Being Reciprocal of Width to Power
of Square Root of Depth [4.468952886990851]
超近似パワーを持つ新しいネットワークが導入された。
このネットワークは、各ニューロン内のFloor(lfloor xrfloor$)またはReLU(max0,x$)アクティベーション関数で構築されている。
論文 参考訳(メタデータ) (2020-06-22T13:27:33Z) - On the Complexity of Minimizing Convex Finite Sums Without Using the
Indices of the Individual Functions [62.01594253618911]
有限和の有限ノイズ構造を利用して、大域オラクルモデルの下での一致する$O(n2)$-upper境界を導出する。
同様のアプローチを踏襲したSVRGの新規な適応法を提案し、これはオラクルと互換性があり、$tildeO(n2+nsqrtL/mu)log (1/epsilon)$と$O(nsqrtL/epsilon)$, for $mu>0$と$mu=0$の複雑さ境界を実現する。
論文 参考訳(メタデータ) (2020-02-09T03:39:46Z) - Deep Network Approximation for Smooth Functions [9.305095040004156]
幅$mathcalO(Nln N)$と深さ$mathcalO(L L)$の深いReLUネットワークは、ほぼ最適近似誤差で$fin Cs([0,1]d)$を近似できることを示す。
我々の推定は、それぞれ$NinmathbbN+$と$LinmathbbN+$で指定された任意の幅と深さに対して有効であるという意味では漸近的ではない。
論文 参考訳(メタデータ) (2020-01-09T15:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。