論文の概要: LU decomposition and Toeplitz decomposition of a neural network
- arxiv url: http://arxiv.org/abs/2211.13935v1
- Date: Fri, 25 Nov 2022 07:26:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 18:59:47.048232
- Title: LU decomposition and Toeplitz decomposition of a neural network
- Title(参考訳): ニューラルネットワークのLU分解とToeplitz分解
- Authors: Yucong Liu, Simiao Jiao, and Lek-Heng Lim
- Abstract要約: 任意の連続関数 $f : mathbbRn to mathbbRm$ がニューラルネットワークによる任意の精度に近似可能であることを示す。
我々のToeplitzの結果は、畳み込みニューラルネットワークの固定幅普遍近似である。
- 参考スコア(独自算出の注目度): 5.276232626689567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well-known that any matrix $A$ has an LU decomposition. Less well-known
is the fact that it has a 'Toeplitz decomposition' $A = T_1 T_2 \cdots T_r$
where $T_i$'s are Toeplitz matrices. We will prove that any continuous function
$f : \mathbb{R}^n \to \mathbb{R}^m$ has an approximation to arbitrary accuracy
by a neural network that takes the form $L_1 \sigma_1 U_1 \sigma_2 L_2 \sigma_3
U_2 \cdots L_r \sigma_{2r-1} U_r$, i.e., where the weight matrices alternate
between lower and upper triangular matrices, $\sigma_i(x) := \sigma(x - b_i)$
for some bias vector $b_i$, and the activation $\sigma$ may be chosen to be
essentially any uniformly continuous nonpolynomial function. The same result
also holds with Toeplitz matrices, i.e., $f \approx T_1 \sigma_1 T_2 \sigma_2
\cdots \sigma_{r-1} T_r$ to arbitrary accuracy, and likewise for Hankel
matrices. A consequence of our Toeplitz result is a fixed-width universal
approximation theorem for convolutional neural networks, which so far have only
arbitrary width versions. Since our results apply in particular to the case
when $f$ is a general neural network, we may regard them as LU and Toeplitz
decompositions of a neural network. The practical implication of our results is
that one may vastly reduce the number of weight parameters in a neural network
without sacrificing its power of universal approximation. We will present
several experiments on real data sets to show that imposing such structures on
the weight matrices sharply reduces the number of training parameters with
almost no noticeable effect on test accuracy.
- Abstract(参考訳): 任意の行列$A$がLU分解を持つことはよく知られている。
あまり知られていないのは、'Toeplitz decomposition' $A = T_1 T_2 \cdots T_r$ であるという事実である。
任意の連続関数 $f : \mathbb{r}^n \to \mathbb{r}^m$ は、任意のバイアスベクトル $b_i$ に対して$l_1 \sigma_1 u_1 \sigma_2 l_2 \sigma_3 u_2 \cdots l_r \sigma_{2r-1} u_r$、すなわち、重み行列が下三角行列と上三角行列の間を交互に交わる場合、$\sigma_i(x) := \sigma(x - b_i)$ という形をとるニューラルネットワークによって任意の精度に近似することを証明する。
同じ結果は、Toeplitz行列、すなわち$f \approx T_1 \sigma_1 T_2 \cdots \sigma_{r-1} T_r$ も任意の精度で成り立つ。
我々のToeplitzの結果は、畳み込みニューラルネットワークに対する固定幅普遍近似定理であり、これまでのところ任意の幅バージョンしか持たない。
この結果は,一般ニューラルネットワークである場合において特に適用されるので,ニューラルネットワークのLUおよびToeplitz分解とみなすことができる。
この結果の実用的意味は、ニューラルネットワークにおける重みパラメータの数を、普遍近似のパワーを犠牲にすることなく大幅に削減できるということである。
実データ集合についていくつかの実験を行い、重み行列にそのような構造を課すことで、テスト精度にほとんど影響を与えないトレーニングパラメータの数を鋭く減少させることを示した。
関連論文リスト
- Sample and Computationally Efficient Robust Learning of Gaussian Single-Index Models [37.42736399673992]
シングルインデックスモデル (SIM) は $sigma(mathbfwast cdot mathbfx)$ という形式の関数であり、$sigma: mathbbR to mathbbR$ は既知のリンク関数であり、$mathbfwast$ は隠れ単位ベクトルである。
適切な学習者が$L2$-error of $O(mathrmOPT)+epsilon$。
論文 参考訳(メタデータ) (2024-11-08T17:10:38Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文 参考訳(メタデータ) (2022-09-29T15:29:10Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Deformed semicircle law and concentration of nonlinear random matrices
for ultra-wide neural networks [29.03095282348978]
本稿では、$f(X)$に付随する2つの経験的カーネル行列のスペクトル分布の制限について検討する。
経験的カーネルによって誘導されるランダムな特徴回帰は、超広範体制下でのカーネル回帰の制限と同じ性能を達成することを示す。
論文 参考訳(メタデータ) (2021-09-20T05:25:52Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - A Corrective View of Neural Networks: Representation, Memorization and
Learning [26.87238691716307]
我々はニューラルネットワーク近似の補正機構を開発する。
ランダム・フィーチャー・レギュレーション(RF)における2層ニューラルネットワークは任意のラベルを記憶できることを示す。
また、3層ニューラルネットワークについても検討し、その補正機構がスムーズなラジアル関数に対する高速な表現率をもたらすことを示す。
論文 参考訳(メタデータ) (2020-02-01T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。