論文の概要: Deep Network Approximation: Beyond ReLU to Diverse Activation Functions
- arxiv url: http://arxiv.org/abs/2307.06555v4
- Date: Tue, 10 Oct 2023 22:38:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 05:46:02.022226
- Title: Deep Network Approximation: Beyond ReLU to Diverse Activation Functions
- Title(参考訳): Deep Network Approximation: ReLUを超えて、さまざまなアクティベーション関数
- Authors: Shijun Zhang, Jianfeng Lu, Hongkai Zhao
- Abstract要約: 本稿では,多様な活性化関数に対するディープニューラルネットワークの表現力について検討する。
- 参考スコア(独自算出の注目度): 12.479831561907007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the expressive power of deep neural networks for a
diverse range of activation functions. An activation function set $\mathscr{A}$
is defined to encompass the majority of commonly used activation functions,
such as $\mathtt{ReLU}$, $\mathtt{LeakyReLU}$, $\mathtt{ReLU}^2$,
$\mathtt{ELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\mathtt{GELU}$,
$\mathtt{SiLU}$, $\mathtt{Swish}$, $\mathtt{Mish}$, $\mathtt{Sigmoid}$,
$\mathtt{Tanh}$, $\mathtt{Arctan}$, $\mathtt{Softsign}$, $\mathtt{dSiLU}$, and
$\mathtt{SRS}$. We demonstrate that for any activation function $\varrho\in
\mathscr{A}$, a $\mathtt{ReLU}$ network of width $N$ and depth $L$ can be
approximated to arbitrary precision by a $\varrho$-activated network of width
$3N$ and depth $2L$ on any bounded set. This finding enables the extension of
most approximation results achieved with $\mathtt{ReLU}$ networks to a wide
variety of other activation functions, albeit with slightly increased
constants. Significantly, we establish that the (width,$\,$depth) scaling
factors that appeared in the previous result can be further reduced from
$(3,2)$ to $(1,1)$ if $\varrho$ falls within a specific subset of
$\mathscr{A}$. This subset includes activation functions such as
$\mathtt{ELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\mathtt{GELU}$,
$\mathtt{SiLU}$, $\mathtt{Swish}$, and $\mathtt{Mish}$.
- Abstract(参考訳): 本稿では,多様な活性化関数に対するディープニューラルネットワークの表現力について検討する。
$\mathtt{ReLU}$, $\mathtt{LeakyReLU}$, $\matht{ReLU}^2$, $\matht{ELU}$, $\matht{SELU}$, $\matht{Softplus}$, $\matht{GELU}$, $\matht{SiLU}$, $\matht{Swish}$, $\matht{Swish}$, $\matht{Mish}$, $\matht{Sigmoid}$, $\matht{ReLU}$, $\matht{Sigmoid}$, $\matht{ReLU}^2$, $\mathtt{SELU}$, $, $\mathtt{Softplus}$, $\mathtt{GELU}$, $, $\mathttt{Swish}$, $, $\mathtt{Swish}$, $\mathtt{Swish}$, $, $\mathtt{Swish}$, $\mathtt{Swish}$, $, $\mathttt{Sig}$\mathtt{Sig}$, $, $\mathttttt{Sig}$, $, $\mathttttt{Sig}$\matht{Sig}$, $, $\mathttttt{Sig}$}$, $\mathttt{Sig}$}$}$, $}$, $\matht{Swt{Swt{Sw}$, $, $\matht{Swt{Swt{Sw}$, $, $}
任意の活性化関数 $\varrho\in \mathscr{A}$, a $\mathtt{ReLU}$ network of width $N$ and depth $L$ に対して、任意の有界集合上の$\varrho$-activated network of width $3N$ and depth $2L$ を任意の精度で近似できることを示した。
注目すべきなのは,前回の結果に現れた (width,$\,$depth) スケーリング係数が$(3,2)$ から $(1,1)$ まで,$\varrho$ が $\mathscr{a}$ の特定のサブセット内に入る場合,さらに削減可能であることだ。
このサブセットには、$\mathtt{ELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\matht{GELU}$, $\matht{SiLU}$, $\mathtt{Swish}$, $\mathtt{Mish}$などの活性化関数が含まれる。
- On the Complexity of Pure-State Consistency of Local Density Matrices [0.0]
論文 参考訳(メタデータ) (2024-11-05T13:43:21Z) - The Communication Complexity of Approximating Matrix Rank [50.6867896228563]
この問題は通信複雑性のランダム化を$Omega(frac1kcdot n2log|mathbbF|)$とする。
アプリケーションとして、$k$パスを持つ任意のストリーミングアルゴリズムに対して、$Omega(frac1kcdot n2log|mathbbF|)$スペースローバウンドを得る。
論文 参考訳(メタデータ) (2024-10-26T06:21:42Z) - Locality Regularized Reconstruction: Structured Sparsity and Delaunay Triangulations [7.148312060227714]
すべてのレベルの正則化と、$mathbfX$ の列が独自のデラウネー三角形を持つという穏やかな条件の下では、最適係数の非零成分の数は$d+1$ で上界となることを証明している。
論文 参考訳(メタデータ) (2024-05-01T19:56:52Z) - Provably learning a multi-head attention layer [55.2904547651831]
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - A Fast Optimization View: Reformulating Single Layer Attention in LLM
Based on Tensor and SVM Trick, and Solving It in Matrix Multiplication Time [7.613259578185218]
我々は、一層注意ネットワーク目的関数 $L(X,Y) の証明可能な保証を提供することに注力する。
損失関数をトレーニングする反復アルゴリズムを$L(X,Y)$ up $epsilon$で、$widetildeO( (cal T_mathrmmat(n,d) + dで実行される。
論文 参考訳(メタデータ) (2023-09-14T04:23:40Z) - Fast $(1+\varepsilon)$-Approximation Algorithms for Binary Matrix
Factorization [54.29685789885059]
本稿では, 2次行列分解(BMF)問題に対する効率的な$(1+varepsilon)$-approximationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-02T18:55:27Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Linear Bandits on Uniformly Convex Sets [88.3673525964507]
線形バンディットアルゴリズムはコンパクト凸作用集合上の $tildemathcalo(nsqrtt)$ pseudo-regret 境界を与える。
論文 参考訳(メタデータ) (2021-03-10T07:33:03Z) - Deep Neural Networks with ReLU-Sine-Exponential Activations Break Curse
of Dimensionality on H\"older Class [6.476766717110237]
論文 参考訳(メタデータ) (2021-02-28T15:57:42Z) - Deep Network with Approximation Error Being Reciprocal of Width to Power
of Square Root of Depth [4.468952886990851]
このネットワークは、各ニューロン内のFloor(lfloor xrfloor$)またはReLU(max0,x$)アクティベーション関数で構築されている。
論文 参考訳(メタデータ) (2020-06-22T13:27:33Z) - $Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文 参考訳(メタデータ) (2020-06-16T13:01:33Z)