論文の概要: Representation mitosis in wide neural networks
- arxiv url: http://arxiv.org/abs/2106.03485v1
- Date: Mon, 7 Jun 2021 10:18:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:46:26.760496
- Title: Representation mitosis in wide neural networks
- Title(参考訳): 広範ニューラルネットワークにおける表現ミトーシス
- Authors: Diego Doimo, Aldo Glielmo, Sebastian Goldt, Alessandro Laio
- Abstract要約: 有糸分裂を活性化する重要な要素は,訓練誤差がゼロになるまで訓練過程を継続していることが示される。
検討した学習課題の1つは、複数の自動開発クローンを持つワイドモデルが、最終レイヤがクローンと同じサイズであるアーキテクチャに基づいて、ディープアンサンブルよりもはるかに優れた性能を発揮することを示しています。
- 参考スコア(独自算出の注目度): 68.14247656034044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) defy the classical bias-variance trade-off:
adding parameters to a DNN that exactly interpolates its training data will
typically improve its generalisation performance. Explaining the mechanism
behind the benefit of such over-parameterisation is an outstanding challenge
for deep learning theory. Here, we study the last layer representation of
various deep architectures such as Wide-ResNets for image classification and
find evidence for an underlying mechanism that we call *representation
mitosis*: if the last hidden representation is wide enough, its neurons tend to
split into groups which carry identical information, and differ from each other
only by a statistically independent noise. Like in a mitosis process, the
number of such groups, or ``clones'', increases linearly with the width of the
layer, but only if the width is above a critical value. We show that a key
ingredient to activate mitosis is continuing the training process until the
training error is zero. Finally, we show that in one of the learning tasks we
considered, a wide model with several automatically developed clones performs
significantly better than a deep ensemble based on architectures in which the
last layer has the same size as the clones.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、古典的なバイアス分散トレードオフを否定する: トレーニングデータを正確に補間するパラメータをDNNに追加することで、一般化のパフォーマンスが向上する。
このような過剰パラメータ化の利点の背後にあるメカニズムを説明することは、深層学習理論にとって際立った課題である。
本稿では,画像分類のための広層網など,様々な深層アーキテクチャの最後の層表現について検討し, *representation mitosis*: 最後の隠れた表現が十分に広い場合,そのニューロンは同一の情報を持つグループに分けられる傾向にあり,統計的に独立したノイズによってのみ互いに異なる。
有糸分裂の過程と同様に、このような群の数(「クローン」)は層の幅と直線的に増加するが、幅が臨界値を超える場合に限られる。
有糸分裂を活性化する重要な要素は,訓練誤差がゼロになるまで訓練過程を継続していることを示す。
最後に,我々が検討した学習タスクの1つにおいて,複数の自動開発クローンを持つワイドモデルが,最後のレイヤがクローンと同じ大きさのアーキテクチャに基づくディープアンサンブルよりも有意に優れた性能を示すことを示す。
関連論文リスト
- Learning a Neuron by a Shallow ReLU Network: Dynamics and Implicit Bias
for Correlated Inputs [5.7166378791349315]
我々は、単一ニューロンを学習する基本的な回帰タスクとして、1つの隠れた層ReLUネットワークをトレーニングすると、損失がゼロとなることを証明した。
また、最小ランクの補間ネットワークと最小ユークリッドノルムの補間ネットワークのこの設定において、驚くべき区別を示し、特徴付ける。
論文 参考訳(メタデータ) (2023-06-10T16:36:22Z) - Sparsity-depth Tradeoff in Infinitely Wide Deep Neural Networks [22.083873334272027]
我々は,スペーサーネットワークが,様々なデータセットの浅い深度で非スパースネットワークより優れていることを観察した。
カーネルリッジ回帰の一般化誤差に関する既存の理論を拡張した。
論文 参考訳(メタデータ) (2023-05-17T20:09:35Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - On the optimization and generalization of overparameterized implicit
neural networks [25.237054775800164]
機械学習コミュニティでは、暗黙のニューラルネットワークがますます魅力的になっている。
暗黙の層のみを訓練しても,グローバル収束が保証されることを示す。
本稿では,暗黙的ニューラルネットワークの一般化誤差について検討する。
論文 参考訳(メタデータ) (2022-09-30T16:19:46Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z) - A Deep Conditioning Treatment of Neural Networks [37.192369308257504]
本研究では,入力データの特定のカーネル行列の条件付けを改善することにより,ニューラルネットワークのトレーニング性を向上させることを示す。
ニューラルネットワークの上位層のみのトレーニングと、ニューラルネットワークのタンジェントカーネルを通じてすべてのレイヤをトレーニングするための学習を行うためのバージョンを提供しています。
論文 参考訳(メタデータ) (2020-02-04T20:21:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。