論文の概要: A Theory of Non-Linear Feature Learning with One Gradient Step in Two-Layer Neural Networks
- arxiv url: http://arxiv.org/abs/2310.07891v3
- Date: Sun, 16 Jun 2024 20:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 12:30:40.031668
- Title: A Theory of Non-Linear Feature Learning with One Gradient Step in Two-Layer Neural Networks
- Title(参考訳): 2層ニューラルネットワークにおける1段階のステップによる非線形特徴学習の一理論
- Authors: Behrad Moniri, Donghwan Lee, Hamed Hassani, Edgar Dobriban,
- Abstract要約: 機能学習は、ディープニューラルネットワークの成功の根本的な理由の1つであると考えられている。
サンプルサイズとともに成長する学習率によって、このようなトレーニングが実際に複数のランクワンコンポーネントを導入していることを示す。
- 参考スコア(独自算出の注目度): 43.281323350357404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature learning is thought to be one of the fundamental reasons for the success of deep neural networks. It is rigorously known that in two-layer fully-connected neural networks under certain conditions, one step of gradient descent on the first layer can lead to feature learning; characterized by the appearance of a separated rank-one component -- spike -- in the spectrum of the feature matrix. However, with a constant gradient descent step size, this spike only carries information from the linear component of the target function and therefore learning non-linear components is impossible. We show that with a learning rate that grows with the sample size, such training in fact introduces multiple rank-one components, each corresponding to a specific polynomial feature. We further prove that the limiting large-dimensional and large sample training and test errors of the updated neural networks are fully characterized by these spikes. By precisely analyzing the improvement in the training and test errors, we demonstrate that these non-linear features can enhance learning.
- Abstract(参考訳): 機能学習は、ディープニューラルネットワークの成功の根本的な理由の1つであると考えられている。
特定の条件下での2層完全連結ニューラルネットワークでは、第1層の勾配勾配の1ステップが特徴学習につながることが知られている。
しかし、勾配降下段差が一定であれば、このスパイクは対象関数の線形成分からの情報のみを伝達するので、非線形成分の学習は不可能である。
サンプルサイズとともに成長する学習率により、実際に複数のランク1成分を導入し、それぞれが特定の多項式の特徴に対応することを示す。
さらに、更新されたニューラルネットワークの大規模かつ大規模なサンプルトレーニングとテストエラーの制限が、これらのスパイクによって完全に特徴づけられることを証明した。
トレーニングとテストの誤りの改善を正確に分析することにより、これらの非線形特徴が学習を向上させることを実証する。
関連論文リスト
- Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks [13.983863226803336]
我々は「機能平均化」がディープニューラルネットワークの非ロバスト性に寄与する主要な要因の1つであると論じる。
二層分類タスクのための2層ReLUネットワークにおいて、勾配降下のトレーニング力学を詳細に理論的に解析する。
よりきめ細かい教師付き情報を提供することで、2層多層ニューラルネットワークが個々の特徴を学習できることを実証する。
論文 参考訳(メタデータ) (2024-10-14T09:28:32Z) - How Does Gradient Descent Learn Features -- A Local Analysis for Regularized Two-Layer Neural Networks [18.809547338077905]
有用な特徴を学習する能力は、ニューラルネットワークの大きな利点の1つだ。
最近の研究は、ニューラルネットワークが機能学習を許さないニューラルネットワークカーネル(NTK)で動作可能であることを示している。
論文 参考訳(メタデータ) (2024-06-03T20:15:28Z) - Repetita Iuvant: Data Repetition Allows SGD to Learn High-Dimensional Multi-Index Functions [20.036783417617652]
勾配に基づくアルゴリズムを用いて学習した2層浅層ニューラルネットワークのトレーニング力学について検討する。
理想化シングルパス勾配勾配学習シナリオの簡単な修正により,その計算効率が大幅に向上することを示す。
この結果から,ネットワークが事前処理なしでデータから関連構造を学習できることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:34:31Z) - Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - Graph Neural Networks Provably Benefit from Structural Information: A
Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。
本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文 参考訳(メタデータ) (2023-06-24T10:21:11Z) - Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural
Networks [49.808194368781095]
3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。
この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
論文 参考訳(メタデータ) (2023-05-11T17:19:30Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - The Surprising Simplicity of the Early-Time Learning Dynamics of Neural
Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。
この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T17:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。