論文の概要: Network size and weights size for memorization with two-layers neural
networks
- arxiv url: http://arxiv.org/abs/2006.02855v2
- Date: Tue, 3 Nov 2020 07:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:24:53.898957
- Title: Network size and weights size for memorization with two-layers neural
networks
- Title(参考訳): 2層ニューラルネットワークを用いた記憶のためのネットワークサイズと重みサイズ
- Authors: S\'ebastien Bubeck and Ronen Eldan and Yin Tat Lee and Dan Mikulincer
- Abstract要約: 本稿では,ニューロンの複雑な再結合をベースとしたReLUネットワークの新しいトレーニング手順を提案する。
Oleft(fracnd cdot fraclog(1/epsilon)epsilonright)$のニューロンと、体重のほぼ最適サイズの両方で近似記憶を示す。
- 参考スコア(独自算出の注目度): 15.333300054767726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In 1988, Eric B. Baum showed that two-layers neural networks with threshold
activation function can perfectly memorize the binary labels of $n$ points in
general position in $\mathbb{R}^d$ using only $\ulcorner n/d \urcorner$
neurons. We observe that with ReLU networks, using four times as many neurons
one can fit arbitrary real labels. Moreover, for approximate memorization up to
error $\epsilon$, the neural tangent kernel can also memorize with only
$O\left(\frac{n}{d} \cdot \log(1/\epsilon) \right)$ neurons (assuming that the
data is well dispersed too). We show however that these constructions give rise
to networks where the magnitude of the neurons' weights are far from optimal.
In contrast we propose a new training procedure for ReLU networks, based on
complex (as opposed to real) recombination of the neurons, for which we show
approximate memorization with both $O\left(\frac{n}{d} \cdot
\frac{\log(1/\epsilon)}{\epsilon}\right)$ neurons, as well as nearly-optimal
size of the weights.
- Abstract(参考訳): 1988年、eric b. baumは閾値アクティベーション関数を持つ2層ニューラルネットワークが$\ulcorner n/d \urcorner$ニューロンのみを使用して$\mathbb{r}^d$の一般的な位置にある2つのラベルを完全に記憶できることを示した。
我々は、ReLUネットワークでは、ニューロンの4倍の数が任意の実ラベルに収まることを観察する。
さらに、誤差$\epsilon$までの近似記憶のために、神経接核は$o\left(\frac{n}{d} \cdot \log(1/\epsilon) \right)$ニューロンだけを記憶することもできる(データが十分に分散していると仮定する)。
しかしながら、これらの構造は、ニューロンの重みの規模が最適から遠く離れたネットワークを生じさせることを示す。
対照的に、ReLUネットワークのための新しいトレーニング手順を提案する。これは、(実際の)ニューロンの再結合とは対照的に、$O\left(\frac{n}{d} \cdot \frac{\log(1/\epsilon)}{\epsilon}\right)$ニューロン、および重みのほぼ最適サイズの両方で、近似記憶を示す。
関連論文リスト
- Memorization Capacity for Additive Fine-Tuning with Small ReLU Networks [16.320374162259117]
Fine-Tuning Capacity (FTC)は、ニューラルネットワークが微調整できるサンプルの最大数として定義される。
2層ネットワークの$m=Theta(N)$ニューロンと3層ネットワークの$m=Theta(sqrtN)$ニューロンで、$K$がいくら大きいとしても、$N$サンプルを微調整できることが示される。
論文 参考訳(メタデータ) (2024-08-01T07:58:51Z) - Rates of Approximation by ReLU Shallow Neural Networks [8.22379888383833]
隠れたニューロンが$m$のReLU浅部ニューラルネットワークは、H"古い空間からの関数を均一に近似できることを示す。
そのようなレートは$O(m-fracrd)$に非常に近いが、$fracd+2d+4d+4$は、$d$が大きければ1ドルに近いという意味では$O(m-fracrd)$である。
論文 参考訳(メタデータ) (2023-07-24T00:16:50Z) - Generalization Ability of Wide Neural Networks on $\mathbb{R}$ [8.508360765158326]
広い2層ReLUニューラルネットワークのmathbbR$上での一般化能力について検討した。
$i)$幅$mrightarrowinfty$のとき、ニューラルネットワークカーネル(NNK)がNTKに均一に収束すると、$ii)$$$$K_1$のRKHSに対する回帰の最小値が$n-2/3$;$iii)$ 広義のニューラルネットワークをトレーニングする際に早期停止戦略を採用する場合、$ivとなる。
論文 参考訳(メタデータ) (2023-02-12T15:07:27Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - On the Optimal Memorization Power of ReLU Neural Networks [53.15475693468925]
フィードフォワードReLUニューラルネットワークは、軽度の分離可能性仮定を満たす任意のN$ポイントを記憶することができることを示す。
このような大きなビットの複雑性を持つことは、サブ線形数のパラメータを記憶するのに必要であり、十分であることを示す。
論文 参考訳(メタデータ) (2021-10-07T05:25:23Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - An Exponential Improvement on the Memorization Capacity of Deep
Threshold Networks [40.489350374378645]
我々は$widetildemathcalO(e1/delta2+sqrtn)$ニューロンと$widetildemathcalO(fracddelta+n)$ウェイトが十分であることを証明した。
また、超平面を用いて球面上の$n$の点を分離する純粋に幾何学的な問題にニューラルネットワークを接続することで、新しい下界を証明した。
論文 参考訳(メタデータ) (2021-06-14T19:42:32Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z) - A Corrective View of Neural Networks: Representation, Memorization and
Learning [26.87238691716307]
我々はニューラルネットワーク近似の補正機構を開発する。
ランダム・フィーチャー・レギュレーション(RF)における2層ニューラルネットワークは任意のラベルを記憶できることを示す。
また、3層ニューラルネットワークについても検討し、その補正機構がスムーズなラジアル関数に対する高速な表現率をもたらすことを示す。
論文 参考訳(メタデータ) (2020-02-01T20:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。