論文の概要: Vocabulary for Universal Approximation: A Linguistic Perspective of
Mapping Compositions
- arxiv url: http://arxiv.org/abs/2305.12205v1
- Date: Sat, 20 May 2023 14:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 00:00:09.111366
- Title: Vocabulary for Universal Approximation: A Linguistic Perspective of
Mapping Compositions
- Title(参考訳): 普遍近似のための語彙:マッピング構成の言語学的視点
- Authors: Yongqiang Cai
- Abstract要約: V=phi_i: mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd to mathbbRd
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, deep learning-based sequence modelings, such as language
models, have received much attention and success, which pushes researchers to
explore the possibility of transforming non-sequential problems into a
sequential form. Following this thought, deep neural networks can be
represented as composite functions of a sequence of mappings, linear or
nonlinear, where each composition can be viewed as a \emph{word}. However, the
weights of linear mappings are undetermined and hence require an infinite
number of words. In this article, we investigate the finite case and
constructively prove the existence of a finite \emph{vocabulary} $V=\{\phi_i:
\mathbb{R}^d \to \mathbb{R}^d | i=1,...,n\}$ with $n=O(d^2)$ for the universal
approximation. That is, for any continuous mapping $f: \mathbb{R}^d \to
\mathbb{R}^d$, compact domain $\Omega$ and $\varepsilon>0$, there is a sequence
of mappings $\phi_{i_1}, ..., \phi_{i_m} \in V, m \in \mathbb{Z}_+$, such that
the composition $\phi_{i_m} \circ ... \circ \phi_{i_1} $ approximates $f$ on
$\Omega$ with an error less than $\varepsilon$. Our results provide a
linguistic perspective of composite mappings and suggest a cross-disciplinary
study between linguistics and approximation theory.
- Abstract(参考訳): 近年、言語モデルなどのディープラーニングに基づくシーケンスモデリングが注目され、研究者は非シーケンス問題を逐次形式に変換する可能性を探っている。
この考え方に従うと、ディープニューラルネットワークは、線形または非線形の一連のマッピングの複合関数として表現され、各合成は \emph{word} と見なすことができる。
しかし、線形写像の重みは未決定であり、従って無限個の単語を必要とする。
本稿では、有限の場合を調査し、普遍近似に対して$n=O(d^2)$で有限 \emph{vocabulary} $V=\{\phi_i: \mathbb{R}^d \to \mathbb{R}^d | i=1,...,n\}$の存在を建設的に証明する。
すなわち、任意の連続写像 $f: \mathbb{r}^d \to \mathbb{r}^d$, compact domain $\omega$ と $\varepsilon>0$ に対して、$\phi_{i_1}, ..., \phi_{i_m} \in v, m \in \mathbb{z}_+$ という一連の写像が存在して、合成 $\phi_{i_m} \circ... \circ \phi_{i_1} $approxs $f$ on $\omega$ は$\varepsilon$ 以下の誤差を持つ。
本結果は,複合写像の言語学的視点を提供し,言語学と近似理論の学際的研究を提案する。
関連論文リスト
- Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Noncompact uniform universal approximation [0.0]
普遍近似定理は、(コンパクトでない)入力空間 $mathbbRn$ 上の一様収束に一般化される。
無限大で消えるすべての連続関数は、ニューラルネットワークによって一様に近似することができる。
論文 参考訳(メタデータ) (2023-08-07T08:54:21Z) - The Approximate Degree of DNF and CNF Formulas [95.94432031144716]
すべての$delta>0に対して、$はCNFと近似次数$Omega(n1-delta)の式を構築し、基本的には$nの自明な上限に一致する。
すべての$delta>0$に対して、これらのモデルは$Omega(n1-delta)$、$Omega(n/4kk2)1-delta$、$Omega(n/4kk2)1-delta$が必要です。
論文 参考訳(メタデータ) (2022-09-04T10:01:39Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - On Outer Bi-Lipschitz Extensions of Linear Johnson-Lindenstrauss
Embeddings of Low-Dimensional Submanifolds of $\mathbb{R}^N$ [0.24366811507669117]
$mathcalM$ を $mathbbRN$ のコンパクト $d$-次元部分多様体とし、リーチ $tau$ とボリューム $V_mathcal M$ とする。
非線形関数 $f: mathbbRN rightarrow mathbbRmm が存在し、$m leq C left(d / epsilon2right) log left(fracsqrt[d]V_math が存在することを証明します。
論文 参考訳(メタデータ) (2022-06-07T15:10:46Z) - Low-degree learning and the metric entropy of polynomials [49.1574468325115]
少なくとも$Omega(sqrtvarepsilon)2dlog n leq log mathsfM(mathscrF_n,d,|cdot|_L,varepsilon)は2辺の推定値$c(1-varepsilon)2dlogを満たす。
論文 参考訳(メタデータ) (2022-03-17T23:52:08Z) - Metric Hypertransformers are Universal Adapted Maps [4.83420384410068]
メートル法ハイパートランスフォーマー(MHT)は、任意の適応マップを近似可能な複雑性で、$F:mathscrXmathbbZrightarrow数学scrYmathbbZ$を近似することができる。
我々の結果は、そのような$mathscrX$ および $mathscrY$ と互換性のある最初の(近似的な)普遍近似定理を提供する。
論文 参考訳(メタデータ) (2022-01-31T10:03:46Z) - Provably Approximated ICP [40.349822671753024]
そこで、emphalwaysが$p times q$で3ドルのペアからなる"witness"集合があることを証明し、新しいアライメントアルゴリズムにより、この大域的最適化に対する定数因子近似を定義する。
私たちの近似定数は、実際には1ドル近くであり、最先端のアルゴリズムよりも最大10ドル小さいです。
論文 参考訳(メタデータ) (2021-01-10T18:09:29Z) - A Canonical Transform for Strengthening the Local $L^p$-Type Universal
Approximation Property [4.18804572788063]
任意の機械学習モデルクラス $mathscrFsubseteq C(mathbbRd,mathbbRD)$ が $Lp_mu(mathbbRd,mathbbRD)$ で密であることを保証する。
本稿では、「$mathscrF$'s approximation property」という正準変換を導入することにより、この近似理論問題に対する一般的な解を提案する。
論文 参考訳(メタデータ) (2020-06-24T17:46:35Z) - On the Complexity of Minimizing Convex Finite Sums Without Using the
Indices of the Individual Functions [62.01594253618911]
有限和の有限ノイズ構造を利用して、大域オラクルモデルの下での一致する$O(n2)$-upper境界を導出する。
同様のアプローチを踏襲したSVRGの新規な適応法を提案し、これはオラクルと互換性があり、$tildeO(n2+nsqrtL/mu)log (1/epsilon)$と$O(nsqrtL/epsilon)$, for $mu>0$と$mu=0$の複雑さ境界を実現する。
論文 参考訳(メタデータ) (2020-02-09T03:39:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。