論文の概要: Neural Networks and Polynomial Regression. Demystifying the
Overparametrization Phenomena
- arxiv url: http://arxiv.org/abs/2003.10523v1
- Date: Mon, 23 Mar 2020 20:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 23:23:50.799636
- Title: Neural Networks and Polynomial Regression. Demystifying the
Overparametrization Phenomena
- Title(参考訳): ニューラルネットワークと多項式回帰。
過パラメトリゼーション現象の解明
- Authors: Matt Emschwiller, David Gamarnik, Eren C. K{\i}z{\i}lda\u{g}, Ilias
Zadik
- Abstract要約: ニューラルネットワークモデルでは、過度パラメトリゼーション(overparametrization)は、これらのモデルが見えないデータに対してうまく一般化しているように見える現象を指す。
この現象の従来の説明は、データのトレーニングに使用されるアルゴリズムの自己正規化特性に基づいている。
教師ネットワークが生成したデータを補間する学生ネットワークは,少なくともデータ次元によって制御される明示的な量である場合,よく一般化することを示す。
- 参考スコア(独自算出の注目度): 17.205106391379026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of neural network models, overparametrization refers to the
phenomena whereby these models appear to generalize well on the unseen data,
even though the number of parameters significantly exceeds the sample sizes,
and the model perfectly fits the in-training data. A conventional explanation
of this phenomena is based on self-regularization properties of algorithms used
to train the data. In this paper we prove a series of results which provide a
somewhat diverging explanation. Adopting a teacher/student model where the
teacher network is used to generate the predictions and student network is
trained on the observed labeled data, and then tested on out-of-sample data, we
show that any student network interpolating the data generated by a teacher
network generalizes well, provided that the sample size is at least an explicit
quantity controlled by data dimension and approximation guarantee alone,
regardless of the number of internal nodes of either teacher or student
network.
Our claim is based on approximating both teacher and student networks by
polynomial (tensor) regression models with degree depending on the desired
accuracy and network depth only. Such a parametrization notably does not depend
on the number of internal nodes. Thus a message implied by our results is that
parametrizing wide neural networks by the number of hidden nodes is misleading,
and a more fitting measure of parametrization complexity is the number of
regression coefficients associated with tensorized data. In particular, this
somewhat reconciles the generalization ability of neural networks with more
classical statistical notions of data complexity and generalization bounds. Our
empirical results on MNIST and Fashion-MNIST datasets indeed confirm that
tensorized regression achieves a good out-of-sample performance, even when the
degree of the tensor is at most two.
- Abstract(参考訳): ニューラルネットワークモデルの文脈では、過剰パラメータ化(overparametrization)とは、パラメータ数がサンプルサイズを大幅に上回っても、これらのモデルが見えないデータでうまく一般化しているように見える現象を指し、モデルがトレーニング中のデータに完全に適合する。
この現象の従来の説明は、データの訓練に用いられるアルゴリズムの自己正規化特性に基づいている。
本稿では,いくつかの異なる説明を与える一連の結果を示す。
Adopting a teacher/student model where the teacher network is used to generate the predictions and student network is trained on the observed labeled data, and then tested on out-of-sample data, we show that any student network interpolating the data generated by a teacher network generalizes well, provided that the sample size is at least an explicit quantity controlled by data dimension and approximation guarantee alone, regardless of the number of internal nodes of either teacher or student network.
我々の主張は、所望の精度とネットワーク深度に依存した多項式(テンソル)回帰モデルによる教師と学生のネットワークの近似に基づいている。
このようなパラメータ化は、内部ノードの数に依存しない。
したがって、隠れノード数による広帯域ニューラルネットワークのパラメータ化は誤解を招くものであり、パラメータ化複雑性のより適切な尺度は、テンソル化データに関連する回帰係数の数である。
特に、これはデータ複雑性と一般化境界のより古典的な統計概念を持つニューラルネットワークの一般化能力と幾分調和している。
MNISTとFashion-MNISTのデータセットに対する実験結果から、テンソルの度合いが最大2である場合でも、テンソル化回帰が優れたアウト・オブ・サンプル性能を達成することが確認できた。
関連論文リスト
- Residual Random Neural Networks [0.0]
ランダムな重みを持つ単層フィードフォワードニューラルネットワークは、ニューラルネットワークの文献の中で繰り返されるモチーフである。
隠れたニューロンの数がデータサンプルの次元と等しくない場合でも,優れた分類結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-25T22:00:11Z) - Generalization of Graph Neural Networks is Robust to Model Mismatch [84.01980526069075]
グラフニューラルネットワーク(GNN)は、その一般化能力によってサポートされている様々なタスクにおいて、その効果を実証している。
本稿では,多様体モデルから生成される幾何グラフで動作するGNNについて検討する。
本稿では,そのようなモデルミスマッチの存在下でのGNN一般化の堅牢性を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T16:00:44Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Overparameterized ReLU Neural Networks Learn the Simplest Models: Neural
Isometry and Exact Recovery [33.74925020397343]
ディープラーニングは、学習パラメータが極端に多い場合でも、ニューラルネットワークが驚くほどよく一般化されていることを示している。
標準重崩壊正則化をもつ2層ReLUネットワークのトレーニングと一般化特性について考察する。
我々は,ラベルがうるさい場合でも,ReLUネットワークは単純でスパースなモデルを学ぶことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:47:15Z) - Robust Generalization of Quadratic Neural Networks via Function
Identification [19.87036824512198]
一般化は、テスト分布がトレーニング分布に近いと仮定することが多い。
2次ニューラルネットワークでは、パラメータを特定できないにもかかわらず、モデルで表される関数を識別できることが示される。
論文 参考訳(メタデータ) (2021-09-22T18:02:00Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Slope and generalization properties of neural networks [0.0]
十分に訓練されたニューラルネットワーク分類器の勾配分布は、一般に、完全に接続されたネットワークの層幅から独立していることを示す。
傾斜は、関連する体積を通して類似した大きさであり、滑らかに変化する。また、再スケーリングの例でも予測されるように振る舞う。
本稿では、損失関数の一部として利用したり、ネットワークトレーニング中に基準を終了させたり、複雑度の観点からデータセットをランク付けしたりといった、斜面概念の応用の可能性について論じる。
論文 参考訳(メタデータ) (2021-07-03T17:54:27Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - More data or more parameters? Investigating the effect of data structure
on generalization [17.249712222764085]
データの特性は、トレーニング例の数とトレーニングパラメータの数の関数としてテストエラーに影響を与えます。
ラベル内のノイズや入力データの強い異方性がテストエラーと同じような役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-03-09T16:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。