論文の概要: What can linearized neural networks actually say about generalization?
- arxiv url: http://arxiv.org/abs/2106.06770v1
- Date: Sat, 12 Jun 2021 13:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-19 17:47:30.911605
- Title: What can linearized neural networks actually say about generalization?
- Title(参考訳): 線形化ニューラルネットワークは一般化について実際に何が言えるのか?
- Authors: Guillermo Ortiz-Jim\'enez, Seyed-Mohsen Moosavi-Dezfooli, Pascal
Frossard
- Abstract要約: ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
- 参考スコア(独自算出の注目度): 67.83999394554621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For certain infinitely-wide neural networks, the neural tangent kernel (NTK)
theory fully characterizes generalization. However, for the networks used in
practice, the empirical NTK represents only a rough first-order approximation
of these architectures. Still, a growing body of work keeps leveraging this
approximation to successfully analyze important deep learning phenomena and
derive algorithms for new applications. In our work, we provide strong
empirical evidence to determine the practical validity of such approximation by
conducting a systematic comparison of the behaviour of different neural
networks and their linear approximations on different tasks. We show that the
linear approximations can indeed rank the learning complexity of certain tasks
for neural networks, albeit with important nuances. Specifically, we discover
that, in contrast to what was previously observed, neural networks do not
always perform better than their kernel approximations, and reveal that their
performance gap heavily depends on architecture, number of samples and training
task. In fact, we show that during training, deep networks increase the
alignment of their empirical NTK with the target task, which explains why
linear approximations at the end of training can better explain the dynamics of
deep networks. Overall, our work provides concrete examples of novel deep
learning phenomena which can inspire future theoretical research, as well as
provides a new perspective on the use of the NTK approximation in deep
learning.
- Abstract(参考訳): ある無限大のニューラルネットワークに対して、神経接核(英語版)(ntk)理論は一般化を完全に特徴づける。
しかし、実際に使用されるネットワークでは、経験的ntkはこれらのアーキテクチャの粗い一階近似のみを表している。
それでも、この近似を利用して重要なディープラーニング現象を分析し、新しい応用のためにアルゴリズムを導出する作業が増えている。
本研究は,異なるニューラルネットワークの振る舞いと異なるタスクにおける線形近似の系統的比較を行い,そのような近似の実用的妥当性を決定するための強力な実証的証拠を提供する。
線形近似は、重要なニュアンスがあるにもかかわらず、ニューラルネットワークの特定のタスクの学習複雑性をランク付けできることを示す。
具体的には、従来観測されていたものとは対照的に、ニューラルネットワークが常にカーネル近似よりも優れたパフォーマンスを示すとは限らないことを見出し、そのパフォーマンスギャップがアーキテクチャやサンプル数、トレーニングタスクに大きく依存していることを明らかにする。
実際、トレーニング中、ディープネットワークは、実験的なNTKと目標タスクとの整合性を高めることが示され、トレーニング終了時の線形近似がディープネットワークのダイナミクスをよりよく説明できる理由が説明できる。
本研究は,今後の理論的研究を刺激する新たな深層学習現象の具体例を提供するとともに,深層学習におけるNTK近似の利用に関する新たな視点を提供する。
関連論文リスト
- Operator Learning Meets Numerical Analysis: Improving Neural Networks
through Iterative Methods [2.226971382808806]
演算子方程式の反復的手法に基づく理論的枠組みを開発する。
拡散モデルやAlphaFoldのような一般的なアーキテクチャは本質的に反復的演算子学習を採用していることを実証する。
本研究の目的は,数値解析から洞察を融合させることにより,ディープラーニングの理解を深めることである。
論文 参考訳(メタデータ) (2023-10-02T20:25:36Z) - When Deep Learning Meets Polyhedral Theory: A Survey [6.899761345257773]
過去10年間で、ディープ・ニューラル・ラーニングの顕著な精度のおかげで、ディープは予測モデリングの一般的な方法論となった。
一方、ニューラルネットワークの構造はより単純で線形な関数に収束した。
論文 参考訳(メタデータ) (2023-04-29T11:46:53Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a
Polynomial Net Study [55.12108376616355]
NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、アダマール製品(NNs-Hp)を用いたニューラルネットワークには不完全である。
本研究では,ニューラルネットワークの特別なクラスであるNNs-Hpに対する有限幅Kの定式化を導出する。
我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。
論文 参考訳(メタデータ) (2022-09-16T06:36:06Z) - Limitations of the NTK for Understanding Generalization in Deep Learning [13.44676002603497]
我々はNTKをスケーリング法則のレンズを通して研究し、ニューラルネットワークの一般化の重要な側面を説明するには不十分であることを示した。
実験的なNTKを一定数のサンプルで事前トレーニングしても、カーネルのスケーリングはニューラルネットワークのスケーリングに追いつかなくなる。
論文 参考訳(メタデータ) (2022-06-20T21:23:28Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - Quasi-orthogonality and intrinsic dimensions as measures of learning and
generalisation [55.80128181112308]
ニューラルネットワークの特徴空間の次元性と準直交性は、ネットワークの性能差別と共同して機能する可能性があることを示す。
本研究は, ネットワークの最終的な性能と, ランダムに初期化された特徴空間の特性との関係を示唆する。
論文 参考訳(メタデータ) (2022-03-30T21:47:32Z) - Information Flow in Deep Neural Networks [0.6922389632860545]
ディープニューラルネットワークの動作や構造に関する包括的な理論的理解は存在しない。
深層ネットワークはしばしば、不明確な解釈と信頼性を持つブラックボックスと見なされる。
この研究は、情報理論の原理と技法をディープラーニングモデルに適用し、理論的理解を高め、より良いアルゴリズムを設計することを目的としている。
論文 参考訳(メタデータ) (2022-02-10T23:32:26Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。