論文の概要: Feature Learning in Infinite-Width Neural Networks
- arxiv url: http://arxiv.org/abs/2011.14522v2
- Date: Tue, 11 May 2021 08:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 14:30:48.887314
- Title: Feature Learning in Infinite-Width Neural Networks
- Title(参考訳): 無限幅ニューラルネットワークにおける特徴学習
- Authors: Greg Yang, Edward J. Hu
- Abstract要約: ニューラルネットワークの標準およびNTKパラメトリゼーションは、特徴を学習できる無限幅制限を認めないことを示す。
本稿では,標準パラメトリゼーションの簡易な修正を提案し,その限界における特徴学習を実現する。
- 参考スコア(独自算出の注目度): 17.309380337367536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As its width tends to infinity, a deep neural network's behavior under
gradient descent can become simplified and predictable (e.g. given by the
Neural Tangent Kernel (NTK)), if it is parametrized appropriately (e.g. the NTK
parametrization). However, we show that the standard and NTK parametrizations
of a neural network do not admit infinite-width limits that can learn features,
which is crucial for pretraining and transfer learning such as with BERT. We
propose simple modifications to the standard parametrization to allow for
feature learning in the limit. Using the *Tensor Programs* technique, we derive
explicit formulas for such limits. On Word2Vec and few-shot learning on
Omniglot via MAML, two canonical tasks that rely crucially on feature learning,
we compute these limits exactly. We find that they outperform both NTK
baselines and finite-width networks, with the latter approaching the
infinite-width feature learning performance as width increases.
More generally, we classify a natural space of neural network
parametrizations that generalizes standard, NTK, and Mean Field
parametrizations. We show 1) any parametrization in this space either admits
feature learning or has an infinite-width training dynamics given by kernel
gradient descent, but not both; 2) any such infinite-width limit can be
computed using the Tensor Programs technique. Code for our experiments can be
found at github.com/edwardjhu/TP4.
- Abstract(参考訳): 幅が無限大になる傾向があるため、勾配降下下でのディープニューラルネットワークの挙動は単純化され、予測可能である(例)。
ニューラル・タンジェント・カーネル(NTK)によって与えられる、もしそれが適切にパラメータ化されているなら(例えば)
NTKパラメトリゼーション)。
しかし、ニューラルネットワークの標準およびntkパラメトリゼーションは、特徴を学習できる無限幅限界を許容しないことを示す。
本稿では,標準パラメトリゼーションの簡易な修正を提案し,その限界における特徴学習を実現する。
The *Tensor Programs* technique, we derived the explicit formulas for such limits。
Word2VecとMAMLによるOmniglotでの少数ショット学習では、機能学習に大きく依存する2つの標準タスクが、これらの制限を正確に計算する。
ntkベースラインと有限幅ネットワークを上回っており、後者は幅が大きくなるにつれて無限幅の特徴学習性能に近づいている。
より一般的に、標準、NTK、平均場パラメトリゼーションを一般化するニューラルネットワークパラメトリゼーションの自然な空間を分類する。
この空間におけるパラメトリゼーションは、特徴学習またはカーネル勾配降下によって与えられる無限幅のトレーニング力学を持つが、両方ではない; 2)そのような無限幅の極限は、Tensor Programs技術を用いて計算できる。
実験のコードはgithub.com/edwardjhu/TP4で確認できます。
関連論文リスト
- Tensor Programs VI: Feature Learning in Infinite-Depth Neural Networks [42.14352997147652]
深い残留ネットワーク(resnets)の*depthwise parametrization*の類似分類について検討する。
各ブロックが1つの層しか持たないresnetでは、Depth-$mu$Pと呼ばれる一意な最適パラメトリゼーションを同定する。
We found that Depth-$mu$P can be characterized as maximize feature learning and feature diversity。
論文 参考訳(メタデータ) (2023-10-03T17:50:40Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z) - Fast Finite Width Neural Tangent Kernel [47.57136433797996]
ニューラルネットワークのJacobianは、ディープラーニングの研究の中心的な対象として登場した。
有限幅NTKは計算に費用がかかることで有名である。
有限幅NTKの計算およびメモリ要求の指数を変化させる2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T12:18:22Z) - Memorization and Optimization in Deep Neural Networks with Minimum
Over-parameterization [14.186776881154127]
Neural Tangent Kernel(NTK)は、ディープニューラルネットワークにおける記憶、最適化、一般化の保証を提供する強力なツールとして登場した。
NTKは、挑戦的なサブ線形設定においてよく条件付けされていることを示す。
我々の重要な技術的貢献は、ディープネットワークにおける最小のNTK固有値の低い境界である。
論文 参考訳(メタデータ) (2022-05-20T14:50:24Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - On the infinite width limit of neural networks with a standard
parameterization [52.07828272324366]
幅が無限大になるにつれて、これらの特性を全て保存する標準パラメータ化の補間の改善を提案する。
実験により,結果のカーネルはNTKパラメータ化の結果とよく似た精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-01-21T01:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。