論文の概要: Deep learning versus kernel learning: an empirical study of loss
landscape geometry and the time evolution of the Neural Tangent Kernel
- arxiv url: http://arxiv.org/abs/2010.15110v1
- Date: Wed, 28 Oct 2020 17:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 04:53:45.316997
- Title: Deep learning versus kernel learning: an empirical study of loss
landscape geometry and the time evolution of the Neural Tangent Kernel
- Title(参考訳): 深層学習とカーネル学習--ロスランドスケープ幾何学とニューラルタンジェントカーネルの時間進化の実証的研究
- Authors: Stanislav Fort, Gintare Karolina Dziugaite, Mansheej Paul, Sepideh
Kharaghani, Daniel M. Roy, Surya Ganguli
- Abstract要約: 本研究では,非線形深層ネットワークのトレーニング力学,損失ランドスケープの幾何学,およびデータ依存NTKの時間発展の関係について検討する。
複数のニューラルアーキテクチャとデータセットにおいて、これらの多様な尺度は高度に相関した方法で進化し、ディープラーニングプロセスの普遍的なイメージを明らかにする。
- 参考スコア(独自算出の注目度): 41.79250783277419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In suitably initialized wide networks, small learning rates transform deep
neural networks (DNNs) into neural tangent kernel (NTK) machines, whose
training dynamics is well-approximated by a linear weight expansion of the
network at initialization. Standard training, however, diverges from its
linearization in ways that are poorly understood. We study the relationship
between the training dynamics of nonlinear deep networks, the geometry of the
loss landscape, and the time evolution of a data-dependent NTK. We do so
through a large-scale phenomenological analysis of training, synthesizing
diverse measures characterizing loss landscape geometry and NTK dynamics. In
multiple neural architectures and datasets, we find these diverse measures
evolve in a highly correlated manner, revealing a universal picture of the deep
learning process. In this picture, deep network training exhibits a highly
chaotic rapid initial transient that within 2 to 3 epochs determines the final
linearly connected basin of low loss containing the end point of training.
During this chaotic transient, the NTK changes rapidly, learning useful
features from the training data that enables it to outperform the standard
initial NTK by a factor of 3 in less than 3 to 4 epochs. After this rapid
chaotic transient, the NTK changes at constant velocity, and its performance
matches that of full network training in 15% to 45% of training time. Overall,
our analysis reveals a striking correlation between a diverse set of metrics
over training time, governed by a rapid chaotic to stable transition in the
first few epochs, that together poses challenges and opportunities for the
development of more accurate theories of deep learning.
- Abstract(参考訳): 適切な初期化ワイドネットワークでは、小さな学習レートがディープニューラルネットワーク(dnn)をニューラルネットワーク(ntk)マシンに変換し、トレーニングダイナミクスは初期化時のネットワークの線形重み拡大によって近似される。
しかし、標準的な訓練は、その線形化からほとんど理解されていない方法で分岐する。
本研究では,非線形深層ネットワークのトレーニング力学,損失ランドスケープの幾何学,およびデータ依存NTKの時間発展の関係について検討する。
我々は,大規模現象学的なトレーニング分析を通じて,損失景観幾何学とNTKダイナミクスを特徴付ける多様な尺度を合成する。
複数のニューラルアーキテクチャとデータセットにおいて、これらの多様な尺度は高度に相関して進化し、ディープラーニングプロセスの普遍的なイメージを明らかにする。
この図では、深層ネットワークトレーニングは、2~3時間以内にトレーニングの終点を含む低損失の最終線形連結盆地を決定する、非常にカオスな急速初期過渡性を示す。
このカオス的過渡期において、NTKは急速に変化し、トレーニングデータから有用な特徴を学習し、標準のNTKを3から4エポック未満の3倍に向上させることができる。
この急激なカオス的過渡期の後、NTKは一定速度で変化し、その性能はトレーニング時間の15%から45%で完全なネットワークトレーニングと一致する。
全体として、我々の分析は、トレーニング時間におけるさまざまなメトリクスセットの相関関係を明らかにするもので、最初の数回のカオスから安定的な移行によって管理され、共により正確なディープラーニング理論の開発に挑戦し、機会をもたらします。
関連論文リスト
- Stabilizing RNN Gradients through Pre-training [3.335932527835653]
学習理論は、勾配が深さや時間で指数関数的に成長するのを防ぎ、トレーニングを安定させ改善することを提案する。
我々は、既知の安定性理論を拡張し、データとパラメータの分布について最小限の仮定を必要とするディープ・リカレント・ネットワークの幅広いファミリーを包含する。
本稿では,この問題を緩和するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-23T11:48:35Z) - Critical Learning Periods for Multisensory Integration in Deep Networks [112.40005682521638]
ニューラルネットワークが様々な情報源からの情報を統合する能力は、トレーニングの初期段階において、適切な相関した信号に晒されることに批判的になることを示す。
臨界周期は、訓練されたシステムとその学習された表現の最終性能を決定づける、複雑で不安定な初期過渡的ダイナミクスから生じることを示す。
論文 参考訳(メタデータ) (2022-10-06T23:50:38Z) - Characterizing Learning Dynamics of Deep Neural Networks via Complex
Networks [1.0869257688521987]
複素ネットワーク理論(CNT)は、ディープニューラルネットワーク(DNN)を重み付きグラフとして表現し、それらを動的システムとして研究する。
ノード/ニューロンとレイヤ、すなわちNodes StrengthとLayers Fluctuationのメトリクスを紹介します。
本フレームワークは,学習力学のトレンドを抽出し,高精度ネットワークから低次ネットワークを分離する。
論文 参考訳(メタデータ) (2021-10-06T10:03:32Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z) - An analytic theory of shallow networks dynamics for hinge loss
classification [14.323962459195771]
我々は、単純なタイプのニューラルネットワーク(分類タスクを実行するために訓練された単一の隠れ層)のトレーニングダイナミクスについて研究する。
我々はこの理論を線形分離可能なデータセットと線形ヒンジ損失のプロトタイプケースに特化する。
これにより、トレーニングダイナミクスの減速、リッチラーニングと遅延ラーニングのクロスオーバー、オーバーフィッティングといった、現代のネットワークに現れるいくつかの現象に対処することが可能になります。
論文 参考訳(メタデータ) (2020-06-19T16:25:29Z) - On the Neural Tangent Kernel of Deep Networks with Orthogonal
Initialization [18.424756271923524]
我々は,FCN (Fully Connected Networks) や畳み込みニューラルネットワーク (Convolutional Neural Networks, CNN) など,さまざまなアーキテクチャにおける超広帯域ネットワークのダイナミクスについて検討する。
論文 参考訳(メタデータ) (2020-04-13T11:12:53Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。