論文の概要: Optimal Approximation Rate of ReLU Networks in terms of Width and Depth
- arxiv url: http://arxiv.org/abs/2103.00502v1
- Date: Sun, 28 Feb 2021 13:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 17:18:23.459172
- Title: Optimal Approximation Rate of ReLU Networks in terms of Width and Depth
- Title(参考訳): 幅・深さを考慮したReLUネットワークの最適近似速度
- Authors: Zuowei Shen, Haizhao Yang, Shijun Zhang
- Abstract要約: 本稿では,深部フィードフォワードニューラルネットワークの幅と深さの近似力に着目した。
幅$mathcalObig(maxdlfloor N1/drfloor,, N+2big)$と深さ$mathcalO(L)$のReLUネットワークは、近似レート$mathcalObig(lambdasqrtd (N2L2ln)で$[0,1]d$のH"古い連続関数を近似できる。
- 参考スコア(独自算出の注目度): 5.37133760455631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper concentrates on the approximation power of deep feed-forward
neural networks in terms of width and depth. It is proved by construction that
ReLU networks with width $\mathcal{O}\big(\max\{d\lfloor N^{1/d}\rfloor,\,
N+2\}\big)$ and depth $\mathcal{O}(L)$ can approximate a H\"older continuous
function on $[0,1]^d$ with an approximation rate
$\mathcal{O}\big(\lambda\sqrt{d} (N^2L^2\ln N)^{-\alpha/d}\big)$, where
$\alpha\in (0,1]$ and $\lambda>0$ are H\"older order and constant,
respectively. Such a rate is optimal up to a constant in terms of width and
depth separately, while existing results are only nearly optimal without the
logarithmic factor in the approximation rate. More generally, for an arbitrary
continuous function $f$ on $[0,1]^d$, the approximation rate becomes
$\mathcal{O}\big(\,\sqrt{d}\,\omega_f\big( (N^2L^2\ln N)^{-1/d}\big)\,\big)$,
where $\omega_f(\cdot)$ is the modulus of continuity. We also extend our
analysis to any continuous function $f$ on a bounded set. Particularly, if ReLU
networks with depth $31$ and width $\mathcal{O}(N)$ are used to approximate
one-dimensional Lipschitz continuous functions on $[0,1]$ with a Lipschitz
constant $\lambda>0$, the approximation rate in terms of the total number of
parameters, $W=\mathcal{O}(N^2)$, becomes $\mathcal{O}(\tfrac{\lambda}{W\ln
W})$, which has not been discovered in the literature for fixed-depth ReLU
- Abstract(参考訳): 本稿では,深部フィードフォワードニューラルネットワークの幅と深さの近似力に着目した。
構成により、幅 $\mathcal{O}\big(\max\{d\lfloor N^{1/d}\rfloor,\,N+2\}\big)$ と深さ $\mathcal{O}(L)$ の H\"older continuous function on $[0,1]^d$ の近似レート $\mathcal{O}\big(\lambda\sqrt{d} (N^2L^2\ln N)^{-\alpha/d}\big)$ を持つ ReLUネットワークがそれぞれ H\alpha\in (0,1]$ と $\lambda>0$ は H\"older order and constantである。
より一般的には、任意の連続関数 $f$ on $[0,1]^d$ に対して、近似レートは $\mathcal{O}\big(\,\sqrt{d}\,\omega_f\big((N^2L^2\ln N)^{-1/d}\big)\,\big)$ となる。
また、境界付き集合上の任意の連続関数 $f$ に解析を拡張します。
特に、深さ$1$と幅$\mathcal{O}(N)$がLipschitz定数$\lambda>0$で1次元Lipschitz連続関数を$[0,1]$で近似するために使用される場合、パラメータの総数の観点から近似レートは$W=\mathcal{O}(N^2)$となり、固定深度ReLUネットワークの文献では発見されていない$\mathcal{O}(\tfrac{\lambda}{W\ln W})$となる。
- The Communication Complexity of Approximating Matrix Rank [50.6867896228563]
この問題は通信複雑性のランダム化を$Omega(frac1kcdot n2log|mathbbF|)$とする。
アプリケーションとして、$k$パスを持つ任意のストリーミングアルゴリズムに対して、$Omega(frac1kcdot n2log|mathbbF|)$スペースローバウンドを得る。
論文 参考訳(メタデータ) (2024-10-26T06:21:42Z) - On the optimal approximation of Sobolev and Besov functions using deep ReLU neural networks [2.4112990554464235]
論文 参考訳(メタデータ) (2024-09-02T02:26:01Z) - Optimal and Efficient Algorithms for Decentralized Online Convex Optimization [51.00357162913229]
我々は,凸関数と強凸関数の残差を$tildeO(nrho-1/4sqrtT)$と$tildeO(nrho-1/2log T)$に削減できる新しいD-OCOアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-14T13:44:16Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [59.65871549878937]
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - The Approximate Degree of DNF and CNF Formulas [95.94432031144716]
論文 参考訳(メタデータ) (2022-09-04T10:01:39Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Deep Neural Networks with ReLU-Sine-Exponential Activations Break Curse
of Dimensionality on H\"older Class [6.476766717110237]
論文 参考訳(メタデータ) (2021-02-28T15:57:42Z) - Neural Network Approximation: Three Hidden Layers Are Enough [4.468952886990851]
ネットワークはフロア関数(lfloor xrfloor$)、指数関数(2x$)、ステップ関数(1_xgeq 0$)、または各ニューロンの活性化関数としてのそれらの構成で構築される。
論文 参考訳(メタデータ) (2020-10-25T18:30:57Z) - Deep Network with Approximation Error Being Reciprocal of Width to Power
of Square Root of Depth [4.468952886990851]
このネットワークは、各ニューロン内のFloor(lfloor xrfloor$)またはReLU(max0,x$)アクティベーション関数で構築されている。
論文 参考訳(メタデータ) (2020-06-22T13:27:33Z) - On the Complexity of Minimizing Convex Finite Sums Without Using the
Indices of the Individual Functions [62.01594253618911]
同様のアプローチを踏襲したSVRGの新規な適応法を提案し、これはオラクルと互換性があり、$tildeO(n2+nsqrtL/mu)log (1/epsilon)$と$O(nsqrtL/epsilon)$, for $mu>0$と$mu=0$の複雑さ境界を実現する。
論文 参考訳(メタデータ) (2020-02-09T03:39:46Z) - Deep Network Approximation for Smooth Functions [9.305095040004156]
幅$mathcalO(Nln N)$と深さ$mathcalO(L L)$の深いReLUネットワークは、ほぼ最適近似誤差で$fin Cs([0,1]d)$を近似できることを示す。
論文 参考訳(メタデータ) (2020-01-09T15:06:10Z)