論文の概要: Normalization effects on deep neural networks
- arxiv url: http://arxiv.org/abs/2209.01018v1
- Date: Fri, 2 Sep 2022 17:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:23:15.930032
- Title: Normalization effects on deep neural networks
- Title(参考訳): ディープニューラルネットワークにおける正規化効果
- Authors: Jiahui Yu, Konstantinos Spiliopoulos
- Abstract要約: ニューラルネットワークの出力の統計的挙動に対する$gamma_i$の選択の影響について検討する。
ニューラルネットワークの出力とテスト精度のばらつきの観点からは、$gamma_i$sを1にすることを選択すべきである。
- 参考スコア(独自算出の注目度): 20.48472873675696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the effect of normalization on the layers of deep neural networks of
feed-forward type. A given layer $i$ with $N_{i}$ hidden units is allowed to be
normalized by $1/N_{i}^{\gamma_{i}}$ with $\gamma_{i}\in[1/2,1]$ and we study
the effect of the choice of the $\gamma_{i}$ on the statistical behavior of the
neural network's output (such as variance) as well as on the test accuracy on
the MNIST data set. We find that in terms of variance of the neural network's
output and test accuracy the best choice is to choose the $\gamma_{i}$'s to be
equal to one, which is the mean-field scaling. We also find that this is
particularly true for the outer layer, in that the neural network's behavior is
more sensitive in the scaling of the outer layer as opposed to the scaling of
the inner layers. The mechanism for the mathematical analysis is an asymptotic
expansion for the neural network's output. An important practical consequence
of the analysis is that it provides a systematic and mathematically informed
way to choose the learning rate hyperparameters. Such a choice guarantees that
the neural network behaves in a statistically robust way as the $N_i$ grow to
infinity.
- Abstract(参考訳): フィードフォワード型のディープニューラルネットワーク層に対する正規化の効果について検討した。
与えられた層$i$と$N_{i}$の隠れ単位は、$/N_{i}^{\gamma_{i}}$と$\gamma_{i}\in[1/2,1]$で正規化することができ、ここでは、$\gamma_{i}$の選択がニューラルネットワークの出力(分散など)の統計的挙動およびMNISTデータセットにおけるテスト精度に与える影響を研究する。
ニューラルネットワークの出力とテスト精度のばらつきに関して、最も良い選択は$\gamma_{i}$'s を 1 に等しいものを選ぶことである。
これは特に外部層に対して当てはまり、内部層のスケーリングとは対照的に、ニューラルネットワークの動作は外側層のスケーリングにおいてより敏感である。
数学的解析のメカニズムは、ニューラルネットワークの出力に対する漸近的な拡張である。
解析の重要な実用的成果は、学習率ハイパーパラメータを選択するための体系的かつ数学的にインフォームドされた方法を提供することである。
このような選択は、N_i$が無限に大きくなるにつれて、ニューラルネットワークが統計的に堅牢な振る舞いを保証します。
関連論文リスト
- The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Wide Neural
Networks [91.3755431537592]
ネットワークがランダムに切断されたとき、完全に接続されたニューラルネットワークでは、切断されたニューラルネットワークの経験的NTKが元のネットワークのものと収束することを示す。
我々は、MNISTとCIFAR-10の画像分類により、異なるアーキテクチャにわたるランダムプルーニングを評価することにより、我々の理論をさらに検証する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Stochastic Neural Networks with Infinite Width are Deterministic [7.07065078444922]
使用中のニューラルネットワークの主要なタイプであるニューラルネットワークについて研究する。
最適化されたニューラルネットワークの幅が無限大になる傾向があるため、トレーニングセットの予測分散はゼロになる。
論文 参考訳(メタデータ) (2022-01-30T04:52:31Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - The Rate of Convergence of Variation-Constrained Deep Neural Networks [35.393855471751756]
変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。
その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-22T21:28:00Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Normalization effects on shallow neural networks and related asymptotic
expansions [20.48472873675696]
特に、ニューラルネットワークの正規化に繋がる異なるスケーリングスキームが、ネットワークの統計的出力に与える影響について検討する。
我々は、隠れたユニットの数が無限に増加するにつれて、スケーリングパラメータに関して、ニューラルネットワークの統計的出力をポイントワイズに拡張する。
我々は,ニューラルネットワークの統計的出力のばらつきが,平均場正規化に近づくにつれて,$N$で先行する傾向を示す。
論文 参考訳(メタデータ) (2020-11-20T16:33:28Z) - The Efficacy of $L_1$ Regularization in Two-Layer Neural Networks [36.753907384994704]
ニューラルネットワークにおける重要な問題は、最も適切な数の隠れたニューロンを選択し、厳密な統計的リスク境界を得ることである。
我々は、$L_1$正規化が一般化誤差を制御し、入力次元を分散させることができることを示す。
過剰な数のニューロンは、必ずしも適切な正規化の下で一般化誤差を増大させるとは限らない。
論文 参考訳(メタデータ) (2020-10-02T15:23:22Z) - Measurement error models: from nonparametric methods to deep neural
networks [3.1798318618973362]
本稿では,測定誤差モデルの推定に有効なニューラルネットワーク設計を提案する。
完全に接続されたフィードフォワードニューラルネットワークを用いて回帰関数を$f(x)$に近似する。
我々は、ニューラルネットワークアプローチと古典的ノンパラメトリック手法を比較するために、広範囲にわたる数値的研究を行っている。
論文 参考訳(メタデータ) (2020-07-15T06:05:37Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。