論文の概要: A Theory of Non-Linear Feature Learning with One Gradient Step in
Two-Layer Neural Networks
- arxiv url: http://arxiv.org/abs/2310.07891v2
- Date: Sat, 3 Feb 2024 21:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:43:35.891341
- Title: A Theory of Non-Linear Feature Learning with One Gradient Step in
Two-Layer Neural Networks
- Title(参考訳): 2層ニューラルネットワークにおける1ステップの非線形特徴学習の一理論
- Authors: Behrad Moniri, Donghwan Lee, Hamed Hassani, Edgar Dobriban
- Abstract要約: 特定の条件下での2層完全連結ニューラルネットワークでは、第1層への降下の1ステップと第2層への尾根回帰が特徴学習につながる。
一定の勾配降下ステップサイズで、このスパイクは対象関数の線形成分からの情報のみを伝達する。
サンプルサイズとともに成長する学習率によって、このようなトレーニングが実際に複数のランクオンコンポーネントを導入していることを示す。
- 参考スコア(独自算出の注目度): 47.281736451195954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature learning is thought to be one of the fundamental reasons for the
success of deep neural networks. It is rigorously known that in two-layer
fully-connected neural networks under certain conditions, one step of gradient
descent on the first layer followed by ridge regression on the second layer can
lead to feature learning; characterized by the appearance of a separated
rank-one component -- spike -- in the spectrum of the feature matrix. However,
with a constant gradient descent step size, this spike only carries information
from the linear component of the target function and therefore learning
non-linear components is impossible. We show that with a learning rate that
grows with the sample size, such training in fact introduces multiple rank-one
components, each corresponding to a specific polynomial feature. We further
prove that the limiting large-dimensional and large sample training and test
errors of the updated neural networks are fully characterized by these spikes.
By precisely analyzing the improvement in the training and test errors, we
demonstrate that these non-linear features can enhance learning.
- Abstract(参考訳): 機能学習は、ディープニューラルネットワークの成功の根本的な理由の1つと考えられている。
特定の条件下での2層完全連結ニューラルネットワークでは、第1層の勾配降下の1ステップと第2層の尾根回帰が特徴学習につながることが知られている。
しかし、一定の勾配降下ステップサイズで、このスパイクは対象関数の線形成分からの情報しか持たず、非線形成分の学習は不可能である。
サンプルサイズとともに成長する学習率により、実際に複数のランク1成分を導入し、それぞれが特定の多項式の特徴に対応することを示す。
さらに,更新されたニューラルネットワークの大規模かつ大規模サンプルトレーニングとテストエラーが,これらのスパイクによって完全に特徴付けられることを証明した。
トレーニングとテストエラーの改善を正確に分析することで、これらの非線形機能は学習を向上できることを実証する。
関連論文リスト
- Asymptotics of Learning with Deep Structured (Random) Features [8.593775080183708]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - Asymptotics of feature learning in two-layer networks after one
gradient-step [30.737171081270322]
2層ニューラルネットワークがデータからどのように学習するかを示し、単一の降下ステップでトレーニングした後、勾配のカーネル構造を改善する。
本研究は,2層ニューラルネットワークの一般化における特徴学習の影響を,初めて厳密に説明するものである。
論文 参考訳(メタデータ) (2024-02-07T15:57:30Z) - Understanding Deep Representation Learning via Layerwise Feature
Compression and Discrimination [33.273226655730326]
深層線形ネットワークの各層は、幾何速度でクラス内特徴を徐々に圧縮し、線形速度でクラス間特徴を識別することを示す。
これは、ディープ線形ネットワークの階層的表現における特徴進化の最初の定量的評価である。
論文 参考訳(メタデータ) (2023-11-06T09:00:38Z) - Graph Neural Networks Provably Benefit from Structural Information: A
Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。
本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文 参考訳(メタデータ) (2023-06-24T10:21:11Z) - Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural
Networks [49.808194368781095]
3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。
この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
論文 参考訳(メタデータ) (2023-05-11T17:19:30Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。
ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。
本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文 参考訳(メタデータ) (2020-10-29T21:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。