論文の概要: A closer look at the approximation capabilities of neural networks
- arxiv url: http://arxiv.org/abs/2002.06505v1
- Date: Sun, 16 Feb 2020 04:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 17:49:29.314322
- Title: A closer look at the approximation capabilities of neural networks
- Title(参考訳): ニューラルネットワークの近似能力について
- Authors: Kai Fong Ernest Chong
- Abstract要約: 1つの隠れた層を持つフィードフォワードニューラルネットワークは、任意の連続関数$f$を任意の近似しきい値$varepsilon$に近似することができる。
この均一な近似特性は、重量に強い条件が課せられているにもかかわらず、依然として維持されていることを示す。
- 参考スコア(独自算出の注目度): 6.09170287691728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The universal approximation theorem, in one of its most general versions,
says that if we consider only continuous activation functions $\sigma$, then a
standard feedforward neural network with one hidden layer is able to
approximate any continuous multivariate function $f$ to any given approximation
threshold $\varepsilon$, if and only if $\sigma$ is non-polynomial. In this
paper, we give a direct algebraic proof of the theorem. Furthermore we shall
explicitly quantify the number of hidden units required for approximation.
Specifically, if $X\subseteq \mathbb{R}^n$ is compact, then a neural network
with $n$ input units, $m$ output units, and a single hidden layer with
$\binom{n+d}{d}$ hidden units (independent of $m$ and $\varepsilon$), can
uniformly approximate any polynomial function $f:X \to \mathbb{R}^m$ whose
total degree is at most $d$ for each of its $m$ coordinate functions. In the
general case that $f$ is any continuous function, we show there exists some
$N\in \mathcal{O}(\varepsilon^{-n})$ (independent of $m$), such that $N$ hidden
units would suffice to approximate $f$. We also show that this uniform
approximation property (UAP) still holds even under seemingly strong conditions
imposed on the weights. We highlight several consequences: (i) For any $\delta
> 0$, the UAP still holds if we restrict all non-bias weights $w$ in the last
layer to satisfy $|w| < \delta$. (ii) There exists some $\lambda>0$ (depending
only on $f$ and $\sigma$), such that the UAP still holds if we restrict all
non-bias weights $w$ in the first layer to satisfy $|w|>\lambda$. (iii) If the
non-bias weights in the first layer are \emph{fixed} and randomly chosen from a
suitable range, then the UAP holds with probability $1$.
- Abstract(参考訳): 普遍近似定理(英: universal approximation theorem)は、最も一般的なバージョンの一つで、連続活性化関数 $\sigma$ のみを考えると、1つの隠れた層を持つ標準フィードフォワードニューラルネットワークは任意の連続多変量関数 $f$ を任意の近似しきい値 $\varepsilon$ に近似することができる。
本稿では,定理の直接代数的証明を行う。
さらに、近似に必要な隠れ単位の数を明示的に定量化する。
具体的には、$X\subseteq \mathbb{R}^n$がコンパクトであれば、$n$の入力単位、$m$の出力単位、$\binom{n+d}{d}$の隠れ単位($m$と$\varepsilon$とは独立)を持つ単一の隠れ層を持つニューラルネットワークは、任意の多項式関数$f:X \to \mathbb{R}^m$を均一に近似することができる。
一般の場合、$f$ が任意の連続函数であるなら、$N\in \mathcal{O}(\varepsilon^{-n})$ ($m$ に依存しない) が存在して、$N$ が $f$ を近似するのに十分であることを示す。
また, この一様近似性(uap)は, 重みに課される強弱条件下においてもなお持続することを示した。
いくつかの結果を紹介します
(i)任意の$\delta > 0$に対して、UAPは最後の層におけるすべての非バイアス重みが$|w| < \delta$を満たすように$w$に制限された場合、引き続き保持される。
(ii)$\lambda>0$($f$と$\sigma$にのみ依存する)が存在するため、UAPは、最初の層で$w$の非バイアス重みを$|w|>\lambda$に制限すれば、引き続き保持される。
3) 第一層の非バイアス重みが「emph{fixed」で適切な範囲からランダムに選択された場合、UAPは確率1ドルで保持する。
関連論文リスト
- Sparsifying Suprema of Gaussian Processes [6.638504164134713]
我々は、$O_varepsilon(1)$-size subset $S subseteq T$ と、S$ における実値 $c_s_s の集合が存在することを示す。
また、中心となるガウス過程の過度にスペーシフィケーション結果を用いて、有界な幾何学的幅の凸集合に対するスペーシフィケーション補題を与える。
論文 参考訳(メタデータ) (2024-11-22T01:43:58Z) - LevAttention: Time, Space, and Streaming Efficient Algorithm for Heavy Attentions [54.54897832889028]
任意の$K$に対して、$n$とは独立に「普遍集合」$Uサブセット[n]$が存在し、任意の$Q$と任意の行$i$に対して、大きな注目スコアが$A_i,j$ in row $i$ of $A$は全て$jin U$を持つことを示す。
我々は、視覚変換器のスキームの利点を実証的に示し、トレーニング中に我々の普遍的なセットを使用する新しいモデルのトレーニング方法を示した。
論文 参考訳(メタデータ) (2024-10-07T19:47:13Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Noncompact uniform universal approximation [0.0]
普遍近似定理は、(コンパクトでない)入力空間 $mathbbRn$ 上の一様収束に一般化される。
無限大で消えるすべての連続関数は、ニューラルネットワークによって一様に近似することができる。
論文 参考訳(メタデータ) (2023-08-07T08:54:21Z) - The Approximate Degree of DNF and CNF Formulas [95.94432031144716]
すべての$delta>0に対して、$はCNFと近似次数$Omega(n1-delta)の式を構築し、基本的には$nの自明な上限に一致する。
すべての$delta>0$に対して、これらのモデルは$Omega(n1-delta)$、$Omega(n/4kk2)1-delta$、$Omega(n/4kk2)1-delta$が必要です。
論文 参考訳(メタデータ) (2022-09-04T10:01:39Z) - A general approximation lower bound in $L^p$ norm, with applications to
feed-forward neural networks [0.0]
ニューラルネットワークの表現力に対する基本的な限界について検討する。
まず最初に、$F$ の函数が $Lp(mu)$ ノルムでどれだけよく近似できるかの一般的な下界を証明します。
すると、これを$G$が多項式フィードフォワードニューラルネットワークに対応するケースに初期化する。
論文 参考訳(メタデータ) (2022-06-09T09:01:05Z) - Low-Rank Approximation with $1/\epsilon^{1/3}$ Matrix-Vector Products [58.05771390012827]
我々は、任意のSchatten-$p$ノルムの下で、低ランク近似のためのクリロフ部分空間に基づく反復法について研究する。
我々の主な成果は、$tildeO(k/sqrtepsilon)$ matrix-vector productのみを使用するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-10T16:10:41Z) - Neural Network Approximation: Three Hidden Layers Are Enough [4.468952886990851]
超近似パワーを有する3層ニューラルネットワークを導入する。
ネットワークはフロア関数(lfloor xrfloor$)、指数関数(2x$)、ステップ関数(1_xgeq 0$)、または各ニューロンの活性化関数としてのそれらの構成で構築される。
論文 参考訳(メタデータ) (2020-10-25T18:30:57Z) - Deep Network with Approximation Error Being Reciprocal of Width to Power
of Square Root of Depth [4.468952886990851]
超近似パワーを持つ新しいネットワークが導入された。
このネットワークは、各ニューロン内のFloor(lfloor xrfloor$)またはReLU(max0,x$)アクティベーション関数で構築されている。
論文 参考訳(メタデータ) (2020-06-22T13:27:33Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z) - On the Complexity of Minimizing Convex Finite Sums Without Using the
Indices of the Individual Functions [62.01594253618911]
有限和の有限ノイズ構造を利用して、大域オラクルモデルの下での一致する$O(n2)$-upper境界を導出する。
同様のアプローチを踏襲したSVRGの新規な適応法を提案し、これはオラクルと互換性があり、$tildeO(n2+nsqrtL/mu)log (1/epsilon)$と$O(nsqrtL/epsilon)$, for $mu>0$と$mu=0$の複雑さ境界を実現する。
論文 参考訳(メタデータ) (2020-02-09T03:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。