Fugu-MT 論文翻訳(概要): A Theory of Non-Linear Feature Learning with One Gradient Step in Two-Layer Neural Networks

論文の概要: A Theory of Non-Linear Feature Learning with One Gradient Step in Two-Layer Neural Networks

arxiv url: http://arxiv.org/abs/2310.07891v2
Date: Sat, 3 Feb 2024 21:18:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 04:43:35.891341
Title: A Theory of Non-Linear Feature Learning with One Gradient Step in Two-Layer Neural Networks
Title（参考訳）: 2層ニューラルネットワークにおける1ステップの非線形特徴学習の一理論
Authors: Behrad Moniri, Donghwan Lee, Hamed Hassani, Edgar Dobriban
Abstract要約: 特定の条件下での2層完全連結ニューラルネットワークでは、第1層への降下の1ステップと第2層への尾根回帰が特徴学習につながる。一定の勾配降下ステップサイズで、このスパイクは対象関数の線形成分からの情報のみを伝達する。サンプルサイズとともに成長する学習率によって、このようなトレーニングが実際に複数のランクオンコンポーネントを導入していることを示す。
参考スコア（独自算出の注目度）: 47.281736451195954
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Feature learning is thought to be one of the fundamental reasons for the success of deep neural networks. It is rigorously known that in two-layer fully-connected neural networks under certain conditions, one step of gradient descent on the first layer followed by ridge regression on the second layer can lead to feature learning; characterized by the appearance of a separated rank-one component -- spike -- in the spectrum of the feature matrix. However, with a constant gradient descent step size, this spike only carries information from the linear component of the target function and therefore learning non-linear components is impossible. We show that with a learning rate that grows with the sample size, such training in fact introduces multiple rank-one components, each corresponding to a specific polynomial feature. We further prove that the limiting large-dimensional and large sample training and test errors of the updated neural networks are fully characterized by these spikes. By precisely analyzing the improvement in the training and test errors, we demonstrate that these non-linear features can enhance learning.
Abstract（参考訳）: 機能学習は、ディープニューラルネットワークの成功の根本的な理由の1つと考えられている。特定の条件下での2層完全連結ニューラルネットワークでは、第1層の勾配降下の1ステップと第2層の尾根回帰が特徴学習につながることが知られている。しかし、一定の勾配降下ステップサイズで、このスパイクは対象関数の線形成分からの情報しか持たず、非線形成分の学習は不可能である。サンプルサイズとともに成長する学習率により、実際に複数のランク1成分を導入し、それぞれが特定の多項式の特徴に対応することを示す。さらに,更新されたニューラルネットワークの大規模かつ大規模サンプルトレーニングとテストエラーが,これらのスパイクによって完全に特徴付けられることを証明した。トレーニングとテストエラーの改善を正確に分析することで、これらの非線形機能は学習を向上できることを実証する。

関連論文リスト

Feature Averaging: An Implicit Bias of Gradient Descent Leading to Non-Robustness in Neural Networks [13.983863226803336]
我々は「機能平均化」がディープニューラルネットワークの非ロバスト性に寄与する主要な要因の1つであると論じる。二層分類タスクのための2層ReLUネットワークにおいて、勾配降下のトレーニング力学を詳細に理論的に解析する。よりきめ細かい教師付き情報を提供することで、2層多層ニューラルネットワークが個々の特徴を学習できることを実証する。
論文参考訳（メタデータ） (2024-10-14T09:28:32Z)
Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。ネットワークが強力なデータ依存機能を取得することを示す。驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文参考訳（メタデータ） (2024-06-24T14:50:05Z)
How Does Gradient Descent Learn Features -- A Local Analysis for Regularized Two-Layer Neural Networks [18.809547338077905]
有用な特徴を学習する能力は、ニューラルネットワークの大きな利点の1つだ。最近の研究は、ニューラルネットワークが機能学習を許さないニューラルネットワークカーネル(NTK)で動作可能であることを示している。
論文参考訳（メタデータ） (2024-06-03T20:15:28Z)
Repetita Iuvant: Data Repetition Allows SGD to Learn High-Dimensional Multi-Index Functions [20.036783417617652]
勾配に基づくアルゴリズムを用いて学習した2層浅層ニューラルネットワークのトレーニング力学について検討する。理想化シングルパス勾配勾配学習シナリオの簡単な修正により,その計算効率が大幅に向上することを示す。この結果から,ネットワークが事前処理なしでデータから関連構造を学習できることが示唆された。
論文参考訳（メタデータ） (2024-05-24T11:34:31Z)
Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文参考訳（メタデータ） (2024-02-21T18:35:27Z)
Understanding Deep Representation Learning via Layerwise Feature Compression and Discrimination [33.273226655730326]
深層線形ネットワークの各層は、幾何速度でクラス内特徴を徐々に圧縮し、線形速度でクラス間特徴を識別することを示す。これは、ディープ線形ネットワークの階層的表現における特徴進化の最初の定量的評価である。
論文参考訳（メタデータ） (2023-11-06T09:00:38Z)
Graph Neural Networks Provably Benefit from Structural Information: A Feature Learning Perspective [53.999128831324576]
グラフニューラルネットワーク(GNN)は、グラフ表現学習の先駆けとなった。本研究では,特徴学習理論の文脈におけるグラフ畳み込みの役割について検討する。
論文参考訳（メタデータ） (2023-06-24T10:21:11Z)
Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural Networks [49.808194368781095]
3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
論文参考訳（メタデータ） (2023-05-11T17:19:30Z)
Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文参考訳（メタデータ） (2022-03-22T13:09:17Z)
Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文参考訳（メタデータ） (2021-12-06T18:17:08Z)
Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文参考訳（メタデータ） (2021-12-04T18:07:47Z)
Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。 1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。 1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文参考訳（メタデータ） (2021-02-20T23:26:58Z)
Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。 ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文参考訳（メタデータ） (2020-10-29T21:43:00Z)
The Surprising Simplicity of the Early-Time Learning Dynamics of Neural Networks [43.860358308049044]
研究において、これらの共通認識は、学習の初期段階において完全に誤りであることを示す。この驚くべき単純さは、畳み込みアーキテクチャを持つより多くのレイヤを持つネットワークで持続することができる、と私たちは主張する。
論文参考訳（メタデータ） (2020-06-25T17:42:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。