論文の概要: A Corrective View of Neural Networks: Representation, Memorization and
Learning
- arxiv url: http://arxiv.org/abs/2002.00274v2
- Date: Sat, 20 Jun 2020 02:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 00:46:25.126474
- Title: A Corrective View of Neural Networks: Representation, Memorization and
Learning
- Title(参考訳): ニューラルネットワークの正しい見方:表現,記憶,学習
- Authors: Guy Bresler and Dheeraj Nagaraj
- Abstract要約: 我々はニューラルネットワーク近似の補正機構を開発する。
ランダム・フィーチャー・レギュレーション(RF)における2層ニューラルネットワークは任意のラベルを記憶できることを示す。
また、3層ニューラルネットワークについても検討し、その補正機構がスムーズなラジアル関数に対する高速な表現率をもたらすことを示す。
- 参考スコア(独自算出の注目度): 26.87238691716307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a corrective mechanism for neural network approximation: the total
available non-linear units are divided into multiple groups and the first group
approximates the function under consideration, the second group approximates
the error in approximation produced by the first group and corrects it, the
third group approximates the error produced by the first and second groups
together and so on. This technique yields several new representation and
learning results for neural networks. First, we show that two-layer neural
networks in the random features regime (RF) can memorize arbitrary labels for
arbitrary points under under Euclidean distance separation condition using
$\tilde{O}(n)$ ReLUs which is optimal in $n$ up to logarithmic factors. Next,
we give a powerful representation result for two-layer neural networks with
ReLUs and smoothed ReLUs which can achieve a squared error of at most
$\epsilon$ with $O(C(a,d)\epsilon^{-1/(a+1)})$ for $a \in \mathbb{N}\cup\{0\}$
when the function is smooth enough (roughly when it has $\Theta(ad)$ bounded
derivatives). In certain cases $d$ can be replaced with effective dimension $q
\ll d$. Previous results of this type implement Taylor series approximation
using deep architectures. We also consider three-layer neural networks and show
that the corrective mechanism yields faster representation rates for smooth
radial functions. Lastly, we obtain the first $O(\mathrm{subpoly}(1/\epsilon))$
upper bound on the number of neurons required for a two layer network to learn
low degree polynomials up to squared error $\epsilon$ via gradient descent.
Even though deep networks can express these polynomials with
$O(\mathrm{polylog}(1/\epsilon))$ neurons, the best learning bounds on this
problem require $\mathrm{poly}(1/\epsilon)$ neurons.
- Abstract(参考訳): 我々は、ニューラルネットワーク近似の補正機構を開発し、利用可能な全非線形単位を複数のグループに分割し、第1群が考慮された関数を近似し、第2群が第1群が生成した近似誤差を近似し、第3群が第1群と第2群が生成した誤差を近似する。
この手法により、ニューラルネットワークの新しい表現と学習結果が得られる。
まず,ランダム特徴体系 (rf) における2層ニューラルネットワークは, n$ 対数係数まで最適である$\tilde{o}(n)$ relusを用いてユークリッド距離分離条件下で任意の点に対する任意のラベルを記憶できることを示す。
次に、relus と smoothed relus を持つ2層ニューラルネットワークに対して強力な表現結果を与え、関数が十分滑らかであるときに、$o(c(a,d)\epsilon^{-1/(a+1)})$a \in \mathbb{n}\cup\{0\}$ で最大$\epsilon$ の2乗誤差を達成することができる(大まかに $\theta(ad)$ の有界導関数を持つとき)。
ある場合には$d$ を有効次元 $q \ll d$ に置き換えることができる。
このタイプの以前の結果は、深いアーキテクチャを用いてテイラー級数近似を実装している。
また,3層ニューラルネットワークについても検討し,補正機構が滑らかなラジアル関数の表現速度を高速化することを示す。
最後に、2層ネットワークが勾配降下によって2乗誤差まで低次多項式を学ぶのに必要なニューロン数について、最初の$o(\mathrm{subpoly}(1/\epsilon))$上限を得る。
深層ネットワークはこれらの多項式を$O(\mathrm{polylog}(1/\epsilon))$ニューロンで表すことができるが、この問題の最良の学習境界は$\mathrm{poly}(1/\epsilon)$ニューロンである。
関連論文リスト
- Deep Neural Networks: Multi-Classification and Universal Approximation [0.0]
我々は,幅2ドル,深さ2N+4M-1$のReLUディープニューラルネットワークが,$N$要素からなる任意のデータセットに対して有限標本記憶を達成できることを実証した。
また、$W1,p$関数を近似するための深さ推定と$Lp(Omega;mathbbRm)$ for $mgeq1$を近似するための幅推定も提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Approximation Rates for Shallow ReLU$^k$ Neural Networks on Sobolev Spaces via the Radon Transform [4.096453902709292]
我々は,ReLU$k$アクティベーション関数がソボレフ空間からの関数をいかに効率的に近似できるかという問題を考察する。
例えば、$qleq p$, $pgeq 2$, $s leq k + (d+1)/2$ などである。
論文 参考訳(メタデータ) (2024-08-20T16:43:45Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Shallow neural network representation of polynomials [91.3755431537592]
d+1+sum_r=2Rbinomr+d-1d-1[binomr+d-1d-1d-1[binomr+d-1d-1d-1]binomr+d-1d-1d-1[binomr+d-1d-1d-1]binomr+d-1d-1d-1]
論文 参考訳(メタデータ) (2022-08-17T08:14:52Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。