論文の概要: Disentangling Trainability and Generalization in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/1912.13053v2
- Date: Mon, 13 Jul 2020 04:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 02:16:34.419083
- Title: Disentangling Trainability and Generalization in Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークにおけるディエンタングルトレーナビリティと一般化
- Authors: Lechao Xiao, Jeffrey Pennington, Samuel S. Schoenholz
- Abstract要約: 我々は,ニューラルネットワークのトレーニング性と一般化のために,NTK(Neural Tangent Kernel)のスペクトルを分析した。
グローバル平均プールのないCNNはFCNとほぼ同じ挙動を示すが、プールを持つCNNは著しく異なり、しばしば一般化性能が向上している。
- 参考スコア(独自算出の注目度): 45.15453323967438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A longstanding goal in the theory of deep learning is to characterize the
conditions under which a given neural network architecture will be trainable,
and if so, how well it might generalize to unseen data. In this work, we
provide such a characterization in the limit of very wide and very deep
networks, for which the analysis simplifies considerably. For wide networks,
the trajectory under gradient descent is governed by the Neural Tangent Kernel
(NTK), and for deep networks the NTK itself maintains only weak data
dependence. By analyzing the spectrum of the NTK, we formulate necessary
conditions for trainability and generalization across a range of architectures,
including Fully Connected Networks (FCNs) and Convolutional Neural Networks
(CNNs). We identify large regions of hyperparameter space for which networks
can memorize the training set but completely fail to generalize. We find that
CNNs without global average pooling behave almost identically to FCNs, but that
CNNs with pooling have markedly different and often better generalization
performance. These theoretical results are corroborated experimentally on
CIFAR10 for a variety of network architectures and we include a colab notebook
that reproduces the essential results of the paper.
- Abstract(参考訳): ディープラーニング理論の長年の目標は、与えられたニューラルネットワークアーキテクチャがトレーニング可能な条件を特徴づけることである。
本研究では,非常に広大かつ非常に深いネットワークの限界において,解析が大幅に単純化されるような特徴付けを提供する。
広帯域ネットワークでは、勾配勾配下の軌道はニューラル・タンジェント・カーネル(NTK)によって制御され、深層ネットワークではNTK自体が弱いデータ依存のみを保持する。
NTKのスペクトルを解析することにより、FCN(Fully Connected Networks)やCNN(Convolutional Neural Networks)など、さまざまなアーキテクチャにわたるトレーニング性と一般化に必要な条件を定式化する。
我々は、ネットワークがトレーニングセットを記憶できるが、完全に一般化できないハイパーパラメータ空間の広い領域を特定する。
グローバル平均プールのないCNNはFCNとほぼ同じ挙動を示すが、プールを持つCNNは著しく異なり、しばしば一般化性能が向上している。
これらの理論結果は、CIFAR10上で様々なネットワークアーキテクチャに対して実験的に相関し、本論文の本質的な結果を再現するコラボノートを含む。
関連論文リスト
- Deep Neural Networks via Complex Network Theory: a Perspective [3.1023851130450684]
ディープニューラルネットワーク(DNN)は、リンクと頂点が反復的にデータを処理し、タスクを亜最適に解くグラフとして表現することができる。複雑なネットワーク理論(CNT)は、統計物理学とグラフ理論を融合させ、その重みとニューロン構造を分析してニューラルネットワークを解釈する方法を提供する。
本研究では,DNNのトレーニング分布から抽出した測定値を用いて既存のCNTメトリクスを拡張し,純粋なトポロジカル解析からディープラーニングの解釈可能性へ移行する。
論文 参考訳(メタデータ) (2024-04-17T08:42:42Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Model-Agnostic Reachability Analysis on Deep Neural Networks [25.54542656637704]
我々はDeepAgnと呼ばれるモデルに依存しない検証フレームワークを開発した。
FNN、リカレントニューラルネットワーク(RNN)、あるいは両者の混合に適用することができる。
レイヤやパラメータといったネットワークの内部構造にアクセスする必要はない。
論文 参考訳(メタデータ) (2023-04-03T09:01:59Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Characterizing Learning Dynamics of Deep Neural Networks via Complex
Networks [1.0869257688521987]
複素ネットワーク理論(CNT)は、ディープニューラルネットワーク(DNN)を重み付きグラフとして表現し、それらを動的システムとして研究する。
ノード/ニューロンとレイヤ、すなわちNodes StrengthとLayers Fluctuationのメトリクスを紹介します。
本フレームワークは,学習力学のトレンドを抽出し,高精度ネットワークから低次ネットワークを分離する。
論文 参考訳(メタデータ) (2021-10-06T10:03:32Z) - Improving Neural Network with Uniform Sparse Connectivity [0.0]
本研究では,各層に均一かつ疎結合な一様スパースネットワーク(USN)を提案する。
USNは、予測精度、速度、堅牢性において最先端のスパースネットワークモデルより一貫して、実質的に優れている。
論文 参考訳(メタデータ) (2020-11-29T19:00:05Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - On the Empirical Neural Tangent Kernel of Standard Finite-Width
Convolutional Neural Network Architectures [3.4698840925433765]
NTK理論が実際に一般的な幅の標準的なニューラルネットワークアーキテクチャをいかにうまくモデル化するかは、まだ明らかな疑問である。
我々はこの疑問を、AlexNetとLeNetという2つのよく知られた畳み込みニューラルネットワークアーキテクチャに対して実証的に研究する。
これらのネットワークのより広いバージョンでは、完全に接続されたレイヤのチャネル数や幅が増加すると、偏差は減少する。
論文 参考訳(メタデータ) (2020-06-24T11:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。