論文の概要: Rapid Feature Evolution Accelerates Learning in Neural Networks
- arxiv url: http://arxiv.org/abs/2105.14301v1
- Date: Sat, 29 May 2021 13:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-05 16:48:16.604740
- Title: Rapid Feature Evolution Accelerates Learning in Neural Networks
- Title(参考訳): ニューラルネットワークの学習を高速化する高速機能進化
- Authors: Haozhe Shan and Blake Bordelon
- Abstract要約: 我々は,勾配降下時のNTKと目標関数とのカーネルアライメント現象を解析した。
より深いネットワークでは、機能進化がより速く、より劇的であることを示す。
また、複数の出力ノードを持つネットワークは、各出力チャネルに対して別個の専用カーネルを開発することも見出した。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network (NN) training and generalization in the infinite-width limit
are well-characterized by kernel methods with a neural tangent kernel (NTK)
that is stationary in time. However, finite-width NNs consistently outperform
corresponding kernel methods, suggesting the importance of feature learning,
which manifests as the time evolution of NTKs. Here, we analyze the phenomenon
of kernel alignment of the NTK with the target functions during gradient
descent. We first provide a mechanistic explanation for why alignment between
task and kernel occurs in deep linear networks. We then show that this behavior
occurs more generally if one optimizes the feature map over time to accelerate
learning while constraining how quickly the features evolve. Empirically,
gradient descent undergoes a feature learning phase, during which top
eigenfunctions of the NTK quickly align with the target function and the loss
decreases faster than power law in time; it then enters a kernel gradient
descent (KGD) phase where the alignment does not improve significantly and the
training loss decreases in power law. We show that feature evolution is faster
and more dramatic in deeper networks. We also found that networks with multiple
output nodes develop separate, specialized kernels for each output channel, a
phenomenon we termed kernel specialization. We show that this class-specific
alignment is does not occur in linear networks.
- Abstract(参考訳): ニューラルネットワーク(nn)のトレーニングと無限幅極限の一般化は、時間的に定常な神経接核(ntk)を持つカーネルメソッドによってよく特徴付けられる。
しかし、有限幅NNは、NTKの時間進化として現れる特徴学習の重要性を示唆し、対応するカーネルメソッドよりも一貫して優れている。
本稿では,勾配降下時のNTKと目標関数とのカーネルアライメント現象を解析する。
まず,深層線形ネットワークにおいてタスクとカーネルのアライメントが発生する理由を機械論的に説明する。
次に、機能マップを最適化して学習を加速し、機能の進化速度を制限した場合、この動作がより一般的に発生することを示す。
経験的に、勾配降下は、ntkの最高固有関数が目標関数に迅速に一致し、時間内に損失がパワーロームよりも早く減少する特徴学習フェーズを経て、アライメントが著しく改善されず、トレーニング損失がパワーロームに低下するカーネル勾配降下(kgd)フェーズに入る。
より深いネットワークでは、機能進化がより速く、より劇的であることを示す。
また、複数の出力ノードを持つネットワークは、それぞれの出力チャネルに対して個別の専用カーネルを開発することを発見した。
このクラス固有のアライメントは線形ネットワークでは発生しないことを示す。
関連論文リスト
- Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Understanding Sparse Feature Updates in Deep Networks using Iterative
Linearisation [2.33877878310217]
本稿では,より大規模で深いネットワークが一般化する理由を解明する実験ツールとして,反復線形化学習法を考案する。
様々なケースにおいて、反復線形化トレーニングは、標準トレーニングと同程度に驚くほど機能することを示す。
また、優れたパフォーマンスには機能学習が不可欠であることも示しています。
論文 参考訳(メタデータ) (2022-11-22T15:34:59Z) - Neural Networks as Kernel Learners: The Silent Alignment Effect [86.44610122423994]
遅延トレーニング体制におけるニューラルネットワークは、カーネルマシンに収束する。
これは、サイレントアライメント(サイレントアライメント)という現象のためである。
また、非白データは無声アライメント効果を弱めることを示した。
論文 参考訳(メタデータ) (2021-10-29T18:22:46Z) - Rapid training of deep neural networks without skip connections or
normalization layers using Deep Kernel Shaping [46.083745557823164]
我々は、深層ネットワークに存在する主な病理組織を特定し、それらが高速にトレーニングされ、目に見えないデータに一般化されるのを防ぐ。
本稿では,ネットワークのカーネル関数の「形状」を慎重に制御することで,これらを回避する方法を示す。
論文 参考訳(メタデータ) (2021-10-05T00:49:36Z) - Scaling Neural Tangent Kernels via Sketching and Random Features [53.57615759435126]
最近の研究報告では、NTKレグレッションは、小規模データセットでトレーニングされた有限範囲のニューラルネットワークより優れている。
我々は、アークコサインカーネルの拡張をスケッチして、NTKの近距離入力スパーシティ時間近似アルゴリズムを設計する。
CNTKの特徴をトレーニングした線形回帰器が,CIFAR-10データセット上での正確なCNTKの精度と150倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-15T04:44:52Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite
Networks [12.692279981822011]
指数線型単位(ELU)とガウス誤差線形単位(GELU)を持つ多層パーセプトロンの共分散関数を導出する。
我々は、幅広い活性化関数に対応する繰り返しカーネルの固定点ダイナミクスを解析する。
これまで研究されてきたニューラルネットワークカーネルとは異なり、これらの新しいカーネルは非自明な固定点ダイナミクスを示す。
論文 参考訳(メタデータ) (2020-02-20T01:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。