論文の概要: Towards Understanding the Condensation of Two-layer Neural Networks at
Initial Training
- arxiv url: http://arxiv.org/abs/2105.11686v1
- Date: Tue, 25 May 2021 05:47:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:28:44.095225
- Title: Towards Understanding the Condensation of Two-layer Neural Networks at
Initial Training
- Title(参考訳): 初期学習における2層ニューラルネットワークの凝縮理解に向けて
- Authors: Zhi-Qin John Xu, Hanxu Zhou, Tao Luo, Yaoyu Zhang
- Abstract要約: 原点における活性化関数の特異性は、初期訓練段階における凝縮を理解する上で重要な要素であることを示す。
実験により, 凝縮配向の最大数は特異性次数の2倍であることが示唆された。
- 参考スコア(独自算出の注目度): 1.1958610985612828
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is important to study what implicit regularization is imposed on the loss
function during the training that leads over-parameterized neural networks
(NNs) to good performance on real dataset. Empirically, existing works have
shown that weights of NNs condense on isolated orientations with small
initialization. The condensation implies that the NN learns features from the
training data and is effectively a much smaller network. In this work, we show
that the singularity of the activation function at original point is a key
factor to understanding the condensation at initial training stage. Our
experiments suggest that the maximal number of condensed orientations is twice
of the singularity order. Our theoretical analysis confirms experiments for two
cases, one is for the first-order singularity activation function and the other
is for the one-dimensional input. This work takes a step towards understanding
how small initialization implicitly leads NNs to condensation at initial
training, which is crucial to understand the training and the learning of deep
NNs.
- Abstract(参考訳): ニューラルネットワーク(NN)を実際のデータセット上で優れたパフォーマンスに導くトレーニング中に、損失関数に暗黙の正規化が課されるものを研究することが重要である。
既存の研究は、NNの重みが小さな初期化を伴う孤立配向に凝縮していることを実証的に示している。
この凝縮は、NNがトレーニングデータから特徴を学習し、事実上はるかに小さなネットワークであることを意味する。
本研究では,初期訓練段階での凝縮を理解する上で,原点における活性化関数の特異点が重要な要素であることを示す。
実験により, 凝縮配向の最大数は特異性の2倍であることが示唆された。
理論解析により, 1 つは一階特異性活性化関数, もう 1 つは一次元入力に対する実験が確認された。
この研究は、初期化がnnを暗黙的に凝縮させる方法を理解するための一歩を踏み出し、深層nnのトレーニングと学習を理解する上で不可欠である。
関連論文リスト
- Learning a Neuron by a Shallow ReLU Network: Dynamics and Implicit Bias
for Correlated Inputs [5.7166378791349315]
我々は、単一ニューロンを学習する基本的な回帰タスクとして、1つの隠れた層ReLUネットワークをトレーニングすると、損失がゼロとなることを証明した。
また、最小ランクの補間ネットワークと最小ユークリッドノルムの補間ネットワークのこの設定において、驚くべき区別を示し、特徴付ける。
論文 参考訳(メタデータ) (2023-06-10T16:36:22Z) - Understanding the Initial Condensation of Convolutional Neural Networks [6.451914896767135]
2層畳み込みニューラルネットワークのカーネルは、トレーニング中に1つまたは数つの方向に収束する。
この研究は、特殊な構造を持つニューラルネットワークが示す非線形トレーニングの振る舞いをより深く理解するための一歩である。
論文 参考訳(メタデータ) (2023-05-17T05:00:47Z) - Phase Diagram of Initial Condensation for Two-layer Neural Networks [4.404198015660192]
2層ニューラルネットワークの初期凝縮の位相図を示す。
私たちのフェーズダイアグラムは、ニューラルネットワークの動的構造を包括的に理解するのに役立ちます。
論文 参考訳(メタデータ) (2023-03-12T03:55:38Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Limitations of the NTK for Understanding Generalization in Deep Learning [13.44676002603497]
我々はNTKをスケーリング法則のレンズを通して研究し、ニューラルネットワークの一般化の重要な側面を説明するには不十分であることを示した。
実験的なNTKを一定数のサンプルで事前トレーニングしても、カーネルのスケーリングはニューラルネットワークのスケーリングに追いつかなくなる。
論文 参考訳(メタデータ) (2022-06-20T21:23:28Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - Activation function design for deep networks: linearity and effective
initialisation [10.108857371774977]
先行作業で特定された初期化時の2つの問題を回避する方法を検討する。
これらの問題は, 原点付近に十分に大きな線形領域を持つ活性化関数を選択することで, どちらも回避できることを示す。
論文 参考訳(メタデータ) (2021-05-17T11:30:46Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。