論文の概要: Neural Networks as Kernel Learners: The Silent Alignment Effect
- arxiv url: http://arxiv.org/abs/2111.00034v1
- Date: Fri, 29 Oct 2021 18:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 04:12:28.969106
- Title: Neural Networks as Kernel Learners: The Silent Alignment Effect
- Title(参考訳): カーネル学習者としてのニューラルネットワーク:サイレントアライメント効果
- Authors: Alexander Atanasov, Blake Bordelon, Cengiz Pehlevan
- Abstract要約: 遅延トレーニング体制におけるニューラルネットワークは、カーネルマシンに収束する。
これは、サイレントアライメント(サイレントアライメント)という現象のためである。
また、非白データは無声アライメント効果を弱めることを示した。
- 参考スコア(独自算出の注目度): 86.44610122423994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks in the lazy training regime converge to kernel machines. Can
neural networks in the rich feature learning regime learn a kernel machine with
a data-dependent kernel? We demonstrate that this can indeed happen due to a
phenomenon we term silent alignment, which requires that the tangent kernel of
a network evolves in eigenstructure while small and before the loss appreciably
decreases, and grows only in overall scale afterwards. We show that such an
effect takes place in homogenous neural networks with small initialization and
whitened data. We provide an analytical treatment of this effect in the linear
network case. In general, we find that the kernel develops a low-rank
contribution in the early phase of training, and then evolves in overall scale,
yielding a function equivalent to a kernel regression solution with the final
network's tangent kernel. The early spectral learning of the kernel depends on
both depth and on relative learning rates in each layer. We also demonstrate
that non-whitened data can weaken the silent alignment effect.
- Abstract(参考訳): 遅延トレーニング体制におけるニューラルネットワークは、カーネルマシンに収束する。
リッチな機能学習体制のニューラルネットワークは、データ依存のカーネルを持つカーネルマシンを学習できるだろうか?
ネットワークの接する核は、小さくて、損失が確実に減少する前の固有構造で進化し、その後、全体的な規模でしか成長しない。
このような効果は、小さな初期化と白化データを持つ同種ニューラルネットワークにおいて起こることを示す。
線形ネットワークの場合、この効果を解析的に処理する。
一般に、カーネルはトレーニングの初期段階において低ランクなコントリビューションを発達させ、その後全体規模で進化し、最終的なネットワークの接するカーネルとカーネル回帰解に相当する関数を生成する。
カーネルの初期スペクトル学習は、各層における深さと相対的な学習率の両方に依存する。
また,非白化データは無声アライメント効果を弱めることを示した。
関連論文リスト
- Mean-field Analysis on Two-layer Neural Networks from a Kernel Perspective [40.69646918673903]
2層ニューラルネットワークは、どのカーネル手法よりも効率的に複数の再生カーネルヒルベルト空間の結合を学習できることを示す。
また,グローバルな最適度に収束するラベルノイズプロシージャを開発し,その自由度が暗黙の正規化として現れることを示す。
論文 参考訳(メタデータ) (2024-03-22T02:41:57Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Rapid Feature Evolution Accelerates Learning in Neural Networks [2.538209532048867]
我々は,勾配降下時のNTKと目標関数とのカーネルアライメント現象を解析した。
より深いネットワークでは、機能進化がより速く、より劇的であることを示す。
また、複数の出力ノードを持つネットワークは、各出力チャネルに対して別個の専用カーネルを開発することも見出した。
論文 参考訳(メタデータ) (2021-05-29T13:50:03Z) - Kernelized Classification in Deep Networks [49.47339560731506]
本稿では,ディープネットワークのためのカーネル分類層を提案する。
訓練中のSoftmaxクロスエントロピー損失関数のカーネルトリックを用いて非線形分類層を提唱する。
提案する非線形分類層は,複数のデータセットやタスクに対して有用であることを示す。
論文 参考訳(メタデータ) (2020-12-08T21:43:19Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z) - Spectral Bias and Task-Model Alignment Explain Generalization in Kernel
Regression and Infinitely Wide Neural Networks [17.188280334580195]
トレーニングデータセットを越えた一般化は、マシンラーニングの主な目標である。
最近のディープニューラルネットワークの観測は、古典統計学の従来の知恵と矛盾している。
より多くのデータが、カーネルがノイズや表現できないときに一般化を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:53:11Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。