論文の概要: Normalization effects on shallow neural networks and related asymptotic
expansions
- arxiv url: http://arxiv.org/abs/2011.10487v3
- Date: Wed, 1 Jun 2022 16:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:41:25.380095
- Title: Normalization effects on shallow neural networks and related asymptotic
expansions
- Title(参考訳): 浅層ニューラルネットワークとその漸近展開に対する正規化効果
- Authors: Jiahui Yu and Konstantinos Spiliopoulos
- Abstract要約: 特に、ニューラルネットワークの正規化に繋がる異なるスケーリングスキームが、ネットワークの統計的出力に与える影響について検討する。
我々は、隠れたユニットの数が無限に増加するにつれて、スケーリングパラメータに関して、ニューラルネットワークの統計的出力をポイントワイズに拡張する。
我々は,ニューラルネットワークの統計的出力のばらつきが,平均場正規化に近づくにつれて,$N$で先行する傾向を示す。
- 参考スコア(独自算出の注目度): 20.48472873675696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider shallow (single hidden layer) neural networks and characterize
their performance when trained with stochastic gradient descent as the number
of hidden units $N$ and gradient descent steps grow to infinity. In particular,
we investigate the effect of different scaling schemes, which lead to different
normalizations of the neural network, on the network's statistical output,
closing the gap between the $1/\sqrt{N}$ and the mean-field $1/N$
normalization. We develop an asymptotic expansion for the neural network's
statistical output pointwise with respect to the scaling parameter as the
number of hidden units grows to infinity. Based on this expansion, we
demonstrate mathematically that to leading order in $N$, there is no
bias-variance trade off, in that both bias and variance (both explicitly
characterized) decrease as the number of hidden units increases and time grows.
In addition, we show that to leading order in $N$, the variance of the neural
network's statistical output decays as the implied normalization by the scaling
parameter approaches the mean field normalization. Numerical studies on the
MNIST and CIFAR10 datasets show that test and train accuracy monotonically
improve as the neural network's normalization gets closer to the mean field
normalization.
- Abstract(参考訳): 我々は浅層(単一層)ニューラルネットワークを考察し,確率的勾配勾配のトレーニングにおいて,隠れ単位の数が$N$となり,勾配勾配のステップが無限に増加するにつれて,その性能を特徴付ける。
特に、ニューラルネットワークの正規化に繋がる異なるスケーリングスキームが、ネットワークの統計的出力に及ぼす影響を調査し、1/\sqrt{N}$と平均1/N$の正規化の間のギャップを埋める。
本研究では,隠れ単位の数が無限に増大するにつれて,スケーリングパラメータに関して,ニューラルネットワークの統計的出力の漸近展開を開発する。
この拡張に基づき、n$ の先頭にバイアス分散のトレードオフがないことを数学的に証明し、バイアスと分散(どちらも明確に特徴付けられる)の両方が隠れた単位の数が増え、時間が増えるにつれて減少することを示した。
さらに,n$の先頭値に対して,スケーリングパラメータによる暗黙の正規化が平均場正規化に近づくにつれて,ニューラルネットワークの統計的出力のばらつきが減少することを示した。
MNISTとCIFAR10データセットの数値的研究は、ニューラルネットワークの正規化が平均場正規化に近づくにつれて、テストとトレーニングの精度が単調に向上することを示している。
関連論文リスト
- The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Normalization effects on deep neural networks [20.48472873675696]
ニューラルネットワークの出力の統計的挙動に対する$gamma_i$の選択の影響について検討する。
ニューラルネットワークの出力とテスト精度のばらつきの観点からは、$gamma_i$sを1にすることを選択すべきである。
論文 参考訳(メタデータ) (2022-09-02T17:05:55Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - The Rate of Convergence of Variation-Constrained Deep Neural Networks [35.393855471751756]
変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。
その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-22T21:28:00Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Fundamental tradeoffs between memorization and robustness in random
features and neural tangent regimes [15.76663241036412]
モデルがトレーニングのごく一部を記憶している場合、そのソボレフ・セミノルムは低い有界であることを示す。
実験によって初めて、(iv)ミンノルム補間器の堅牢性における多重発色現象が明らかになった。
論文 参考訳(メタデータ) (2021-06-04T17:52:50Z) - The Efficacy of $L_1$ Regularization in Two-Layer Neural Networks [36.753907384994704]
ニューラルネットワークにおける重要な問題は、最も適切な数の隠れたニューロンを選択し、厳密な統計的リスク境界を得ることである。
我々は、$L_1$正規化が一般化誤差を制御し、入力次元を分散させることができることを示す。
過剰な数のニューロンは、必ずしも適切な正規化の下で一般化誤差を増大させるとは限らない。
論文 参考訳(メタデータ) (2020-10-02T15:23:22Z) - The Interpolation Phase Transition in Neural Networks: Memorization and
Generalization under Lazy Training [10.72393527290646]
ニューラル・タンジェント(NT)体制における2層ニューラルネットワークの文脈における現象について検討した。
Ndgg n$ とすると、テストエラーは無限幅のカーネルに対するカーネルリッジ回帰の1つによってよく近似される。
後者は誤差リッジ回帰によりよく近似され、活性化関数の高次成分に関連する自己誘導項により正規化パラメータが増加する。
論文 参考訳(メタデータ) (2020-07-25T01:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。