論文の概要: A closer look at the approximation capabilities of neural networks
- arxiv url: http://arxiv.org/abs/2002.06505v1
- Date: Sun, 16 Feb 2020 04:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 17:49:29.314322
- Title: A closer look at the approximation capabilities of neural networks
- Title(参考訳): ニューラルネットワークの近似能力について
- Authors: Kai Fong Ernest Chong
- Abstract要約: 1つの隠れた層を持つフィードフォワードニューラルネットワークは、任意の連続関数$f$を任意の近似しきい値$varepsilon$に近似することができる。
- 参考スコア(独自算出の注目度): 6.09170287691728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The universal approximation theorem, in one of its most general versions,
says that if we consider only continuous activation functions $\sigma$, then a
standard feedforward neural network with one hidden layer is able to
approximate any continuous multivariate function $f$ to any given approximation
threshold $\varepsilon$, if and only if $\sigma$ is non-polynomial. In this
paper, we give a direct algebraic proof of the theorem. Furthermore we shall
explicitly quantify the number of hidden units required for approximation.
Specifically, if $X\subseteq \mathbb{R}^n$ is compact, then a neural network
with $n$ input units, $m$ output units, and a single hidden layer with
$\binom{n+d}{d}$ hidden units (independent of $m$ and $\varepsilon$), can
uniformly approximate any polynomial function $f:X \to \mathbb{R}^m$ whose
total degree is at most $d$ for each of its $m$ coordinate functions. In the
general case that $f$ is any continuous function, we show there exists some
$N\in \mathcal{O}(\varepsilon^{-n})$ (independent of $m$), such that $N$ hidden
units would suffice to approximate $f$. We also show that this uniform
approximation property (UAP) still holds even under seemingly strong conditions
imposed on the weights. We highlight several consequences: (i) For any $\delta
> 0$, the UAP still holds if we restrict all non-bias weights $w$ in the last
layer to satisfy $|w| < \delta$. (ii) There exists some $\lambda>0$ (depending
only on $f$ and $\sigma$), such that the UAP still holds if we restrict all
non-bias weights $w$ in the first layer to satisfy $|w|>\lambda$. (iii) If the
non-bias weights in the first layer are \emph{fixed} and randomly chosen from a
suitable range, then the UAP holds with probability $1$.
- Abstract(参考訳): 普遍近似定理(英: universal approximation theorem)は、最も一般的なバージョンの一つで、連続活性化関数 $\sigma$ のみを考えると、1つの隠れた層を持つ標準フィードフォワードニューラルネットワークは任意の連続多変量関数 $f$ を任意の近似しきい値 $\varepsilon$ に近似することができる。
具体的には、$X\subseteq \mathbb{R}^n$がコンパクトであれば、$n$の入力単位、$m$の出力単位、$\binom{n+d}{d}$の隠れ単位($m$と$\varepsilon$とは独立)を持つ単一の隠れ層を持つニューラルネットワークは、任意の多項式関数$f:X \to \mathbb{R}^m$を均一に近似することができる。
一般の場合、$f$ が任意の連続函数であるなら、$N\in \mathcal{O}(\varepsilon^{-n})$ ($m$ に依存しない) が存在して、$N$ が $f$ を近似するのに十分であることを示す。
また, この一様近似性(uap)は, 重みに課される強弱条件下においてもなお持続することを示した。
(i)任意の$\delta > 0$に対して、UAPは最後の層におけるすべての非バイアス重みが$|w| < \delta$を満たすように$w$に制限された場合、引き続き保持される。
3) 第一層の非バイアス重みが「emph{fixed」で適切な範囲からランダムに選択された場合、UAPは確率1ドルで保持する。
- Sparsifying Suprema of Gaussian Processes [6.638504164134713]
我々は、$O_varepsilon(1)$-size subset $S subseteq T$ と、S$ における実値 $c_s_s の集合が存在することを示す。
論文 参考訳(メタデータ) (2024-11-22T01:43:58Z) - LevAttention: Time, Space, and Streaming Efficient Algorithm for Heavy Attentions [54.54897832889028]
任意の$K$に対して、$n$とは独立に「普遍集合」$Uサブセット[n]$が存在し、任意の$Q$と任意の行$i$に対して、大きな注目スコアが$A_i,j$ in row $i$ of $A$は全て$jin U$を持つことを示す。
論文 参考訳(メタデータ) (2024-10-07T19:47:13Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Noncompact uniform universal approximation [0.0]
普遍近似定理は、(コンパクトでない)入力空間 $mathbbRn$ 上の一様収束に一般化される。
論文 参考訳(メタデータ) (2023-08-07T08:54:21Z) - The Approximate Degree of DNF and CNF Formulas [95.94432031144716]
論文 参考訳(メタデータ) (2022-09-04T10:01:39Z) - A general approximation lower bound in $L^p$ norm, with applications to
feed-forward neural networks [0.0]
まず最初に、$F$ の函数が $Lp(mu)$ ノルムでどれだけよく近似できるかの一般的な下界を証明します。
論文 参考訳(メタデータ) (2022-06-09T09:01:05Z) - Low-Rank Approximation with $1/\epsilon^{1/3}$ Matrix-Vector Products [58.05771390012827]
我々の主な成果は、$tildeO(k/sqrtepsilon)$ matrix-vector productのみを使用するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-10T16:10:41Z) - Neural Network Approximation: Three Hidden Layers Are Enough [4.468952886990851]
ネットワークはフロア関数(lfloor xrfloor$)、指数関数(2x$)、ステップ関数(1_xgeq 0$)、または各ニューロンの活性化関数としてのそれらの構成で構築される。
論文 参考訳(メタデータ) (2020-10-25T18:30:57Z) - Deep Network with Approximation Error Being Reciprocal of Width to Power
of Square Root of Depth [4.468952886990851]
このネットワークは、各ニューロン内のFloor(lfloor xrfloor$)またはReLU(max0,x$)アクティベーション関数で構築されている。
論文 参考訳(メタデータ) (2020-06-22T13:27:33Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z) - On the Complexity of Minimizing Convex Finite Sums Without Using the
Indices of the Individual Functions [62.01594253618911]
同様のアプローチを踏襲したSVRGの新規な適応法を提案し、これはオラクルと互換性があり、$tildeO(n2+nsqrtL/mu)log (1/epsilon)$と$O(nsqrtL/epsilon)$, for $mu>0$と$mu=0$の複雑さ境界を実現する。
論文 参考訳(メタデータ) (2020-02-09T03:39:46Z)