論文の概要: A Theory of Non-Linear Feature Learning with One Gradient Step in
Two-Layer Neural Networks
- arxiv url: http://arxiv.org/abs/2310.07891v2
- Date: Sat, 3 Feb 2024 21:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:43:35.891341
- Title: A Theory of Non-Linear Feature Learning with One Gradient Step in
Two-Layer Neural Networks
- Title(参考訳): 2層ニューラルネットワークにおける1ステップの非線形特徴学習の一理論
- Authors: Behrad Moniri, Donghwan Lee, Hamed Hassani, Edgar Dobriban
- Abstract要約: 特定の条件下での2層完全連結ニューラルネットワークでは、第1層への降下の1ステップと第2層への尾根回帰が特徴学習につながる。
一定の勾配降下ステップサイズで、このスパイクは対象関数の線形成分からの情報のみを伝達する。
サンプルサイズとともに成長する学習率によって、このようなトレーニングが実際に複数のランクオンコンポーネントを導入していることを示す。
- 参考スコア(独自算出の注目度): 47.281736451195954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature learning is thought to be one of the fundamental reasons for the
success of deep neural networks. It is rigorously known that in two-layer
fully-connected neural networks under certain conditions, one step of gradient
descent on the first layer followed by ridge regression on the second layer can
lead to feature learning; characterized by the appearance of a separated
rank-one component -- spike -- in the spectrum of the feature matrix. However,
with a constant gradient descent step size, this spike only carries information
from the linear component of the target function and therefore learning
non-linear components is impossible. We show that with a learning rate that
grows with the sample size, such training in fact introduces multiple rank-one
components, each corresponding to a specific polynomial feature. We further
prove that the limiting large-dimensional and large sample training and test
errors of the updated neural networks are fully characterized by these spikes.
By precisely analyzing the improvement in the training and test errors, we
demonstrate that these non-linear features can enhance learning.
- Abstract(参考訳): 機能学習は、ディープニューラルネットワークの成功の根本的な理由の1つと考えられている。
特定の条件下での2層完全連結ニューラルネットワークでは、第1層の勾配降下の1ステップと第2層の尾根回帰が特徴学習につながることが知られている。
しかし、一定の勾配降下ステップサイズで、このスパイクは対象関数の線形成分からの情報しか持たず、非線形成分の学習は不可能である。
サンプルサイズとともに成長する学習率により、実際に複数のランク1成分を導入し、それぞれが特定の多項式の特徴に対応することを示す。
さらに,更新されたニューラルネットワークの大規模かつ大規模サンプルトレーニングとテストエラーが,これらのスパイクによって完全に特徴付けられることを証明した。
トレーニングとテストエラーの改善を正確に分析することで、これらの非線形機能は学習を向上できることを実証する。
関連論文リスト
- Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks [13.983863226803336]
我々は「機能平均化」がディープニューラルネットワークの非ロバスト性に寄与する主要な要因の1つであると論じる。
二層分類タスクのための2層ReLUネットワークにおいて、勾配降下のトレーニング力学を詳細に理論的に解析する。
よりきめ細かい教師付き情報を提供することで、2層多層ニューラルネットワークが個々の特徴を学習できることを実証する。
論文 参考訳(メタデータ) (2024-10-14T09:28:32Z) - How Does Gradient Descent Learn Features -- A Local Analysis for Regularized Two-Layer Neural Networks [18.809547338077905]
有用な特徴を学習する能力は、ニューラルネットワークの大きな利点の1つだ。
最近の研究は、ニューラルネットワークが機能学習を許さないニューラルネットワークカーネル(NTK)で動作可能であることを示している。
論文 参考訳(メタデータ) (2024-06-03T20:15:28Z) - Repetita Iuvant: Data Repetition Allows SGD to Learn High-Dimensional Multi-Index Functions [20.036783417617652]
勾配に基づくアルゴリズムを用いて学習した2層浅層ニューラルネットワークのトレーニング力学について検討する。
理想化シングルパス勾配勾配学習シナリオの簡単な修正により,その計算効率が大幅に向上することを示す。
この結果から,ネットワークが事前処理なしでデータから関連構造を学習できることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:34:31Z) - Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - Graph Neural Networks Provably Benefit from Structural Information: A
Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。
本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文 参考訳(メタデータ) (2023-06-24T10:21:11Z) - Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural
Networks [49.808194368781095]
3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。
この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
論文 参考訳(メタデータ) (2023-05-11T17:19:30Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。