論文の概要: Neural Network Approximation: Three Hidden Layers Are Enough
- arxiv url: http://arxiv.org/abs/2010.14075v4
- Date: Mon, 19 Apr 2021 16:53:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 04:15:13.581205
- Title: Neural Network Approximation: Three Hidden Layers Are Enough
- Title(参考訳): ニューラルネットワークの近似:隠れた3つの層が十分すぎる
- Authors: Zuowei Shen and Haizhao Yang and Shijun Zhang
- Abstract要約: 超近似パワーを有する3層ニューラルネットワークを導入する。
ネットワークはフロア関数(lfloor xrfloor$)、指数関数(2x$)、ステップ関数(1_xgeq 0$)、または各ニューロンの活性化関数としてのそれらの構成で構築される。
- 参考スコア(独自算出の注目度): 4.468952886990851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A three-hidden-layer neural network with super approximation power is
introduced. This network is built with the floor function ($\lfloor x\rfloor$),
the exponential function ($2^x$), the step function ($1_{x\geq 0}$), or their
compositions as the activation function in each neuron and hence we call such
networks as Floor-Exponential-Step (FLES) networks. For any width
hyper-parameter $N\in\mathbb{N}^+$, it is shown that FLES networks with width
$\max\{d,N\}$ and three hidden layers can uniformly approximate a H\"older
continuous function $f$ on $[0,1]^d$ with an exponential approximation rate
$3\lambda (2\sqrt{d})^{\alpha} 2^{-\alpha N}$, where $\alpha \in(0,1]$ and
$\lambda>0$ are the H\"older order and constant, respectively. More generally
for an arbitrary continuous function $f$ on $[0,1]^d$ with a modulus of
continuity $\omega_f(\cdot)$, the constructive approximation rate is
$2\omega_f(2\sqrt{d}){2^{-N}}+\omega_f(2\sqrt{d}\,2^{-N})$. Moreover, we extend
such a result to general bounded continuous functions on a bounded set
$E\subseteq\mathbb{R}^d$. As a consequence, this new class of networks
overcomes the curse of dimensionality in approximation power when the variation
of $\omega_f(r)$ as $r\rightarrow 0$ is moderate (e.g., $\omega_f(r)\lesssim
r^\alpha$ for H\"older continuous functions), since the major term to be
concerned in our approximation rate is essentially $\sqrt{d}$ times a function
of $N$ independent of $d$ within the modulus of continuity. Finally, we extend
our analysis to derive similar approximation results in the $L^p$-norm for
$p\in[1,\infty)$ via replacing Floor-Exponential-Step activation functions by
continuous activation functions.
- Abstract(参考訳): 超近似パワーを有する3層ニューラルネットワークを導入する。
このネットワークはフロア関数(\lfloor x\rfloor$)、指数関数(2^x$)、ステップ関数(1_x\geq 0}$)、または各ニューロンの活性化関数としてのそれらの構成で構築され、フロア-指数-ステップ(FLES)ネットワークと呼ばれる。
任意の幅超パラメータ $n\in\mathbb{n}^+$ に対して、幅$\max\{d,n\}$ と3つの隠れた層を持つflesネットワークは、指数近似レート $3\lambda (2\sqrt{d})^{\alpha} 2^{-\alpha n}$ で、それぞれ$\alpha \in(0,1]$ と $\lambda>0$ が h\"older order と定数であるような、より古い連続関数 $f$ on $[0,1]^d$ を均一に近似することができる。
より一般に、任意の連続関数 $f$ on $[0,1]^d$ と連続性 $\omega_f(\cdot)$ に対して、構成的近似率は 2\omega_f(2\sqrt{d}){2^{-n}}+\omega_f(2\sqrt{d}\,2^{-n})$ である。
さらに、そのような結果を有界集合 $E\subseteq\mathbb{R}^d$ 上の一般有界連続函数に拡張する。
結果として、この新しいネットワークのクラスは、$\omega_f(r)$ as $r\rightarrow 0$ の変動が中等値(例えば、$\omega_f(r)\lesssim r^\alpha$ for H\"older continuous function)であるとき、近似パワーの次元性の呪いを克服する。
最後に, 床指数ステップ活性化関数を連続活性化関数に置き換えることで, $l^p$-norm for $p\in[1,\infty)$ で類似した近似結果を得るように解析を拡張した。
関連論文リスト
- On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [59.65871549878937]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - The Approximate Degree of DNF and CNF Formulas [95.94432031144716]
すべての$delta>0に対して、$はCNFと近似次数$Omega(n1-delta)の式を構築し、基本的には$nの自明な上限に一致する。
すべての$delta>0$に対して、これらのモデルは$Omega(n1-delta)$、$Omega(n/4kk2)1-delta$、$Omega(n/4kk2)1-delta$が必要です。
論文 参考訳(メタデータ) (2022-09-04T10:01:39Z) - Expressive power of binary and ternary neural networks [91.3755431537592]
3次重みを持つ深いスパースReLUネットワークと2次重みを持つ深いReLUネットワークは、[0,1]d$上の$beta$-H"古い関数を近似できることを示す。
論文 参考訳(メタデータ) (2022-06-27T13:16:08Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - ReLU Network Approximation in Terms of Intrinsic Parameters [5.37133760455631]
固有パラメータ数の観点からReLUネットワークの近似誤差について検討する。
我々は、3つの固有パラメータしか持たないReLUネットワークを設計し、任意の誤差でH"古い連続関数を近似する。
論文 参考訳(メタデータ) (2021-11-15T18:20:38Z) - Neural networks with superexpressive activations and integer weights [91.3755431537592]
アクティベーション関数の例 $sigma$ は、アクティベーションを持つネットワーク $sigma, lfloorcdotrfloor$, integer weights と固定アーキテクチャが与えられる。
より古い連続関数の $varepsilon$-approximation に必要な整数ウェイトの範囲が導出される。
論文 参考訳(メタデータ) (2021-05-20T17:29:08Z) - Deep Neural Networks with ReLU-Sine-Exponential Activations Break Curse
of Dimensionality on H\"older Class [6.476766717110237]
活性化関数としてReLU,sine,2x$のニューラルネットワークを構築した。
スーパー表現力に加えて、ReLU-sine-$2x$ネットワークで実装された関数は(一般化)微分可能である。
論文 参考訳(メタデータ) (2021-02-28T15:57:42Z) - Optimal Approximation Rate of ReLU Networks in terms of Width and Depth [5.37133760455631]
本稿では,深部フィードフォワードニューラルネットワークの幅と深さの近似力に着目した。
幅$mathcalObig(maxdlfloor N1/drfloor,, N+2big)$と深さ$mathcalO(L)$のReLUネットワークは、近似レート$mathcalObig(lambdasqrtd (N2L2ln)で$[0,1]d$のH"古い連続関数を近似できる。
論文 参考訳(メタデータ) (2021-02-28T13:15:55Z) - Deep Network with Approximation Error Being Reciprocal of Width to Power
of Square Root of Depth [4.468952886990851]
超近似パワーを持つ新しいネットワークが導入された。
このネットワークは、各ニューロン内のFloor(lfloor xrfloor$)またはReLU(max0,x$)アクティベーション関数で構築されている。
論文 参考訳(メタデータ) (2020-06-22T13:27:33Z) - On the Complexity of Minimizing Convex Finite Sums Without Using the
Indices of the Individual Functions [62.01594253618911]
有限和の有限ノイズ構造を利用して、大域オラクルモデルの下での一致する$O(n2)$-upper境界を導出する。
同様のアプローチを踏襲したSVRGの新規な適応法を提案し、これはオラクルと互換性があり、$tildeO(n2+nsqrtL/mu)log (1/epsilon)$と$O(nsqrtL/epsilon)$, for $mu>0$と$mu=0$の複雑さ境界を実現する。
論文 参考訳(メタデータ) (2020-02-09T03:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。