論文の概要: Asymptotics of feature learning in two-layer networks after one
gradient-step
- arxiv url: http://arxiv.org/abs/2402.04980v1
- Date: Wed, 7 Feb 2024 15:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 14:39:16.255207
- Title: Asymptotics of feature learning in two-layer networks after one
gradient-step
- Title(参考訳): 1段階勾配後の2層ネットワークにおける特徴学習の漸近
- Authors: Hugo Cui, Luca Pesce, Yatin Dandi, Florent Krzakala, Yue M. Lu, Lenka
Zdeborov\'a, Bruno Loureiro
- Abstract要約: 2層ニューラルネットワークがデータからどのように学習するかを示し、単一の降下ステップでトレーニングした後、勾配のカーネル構造を改善する。
本研究は,2層ニューラルネットワークの一般化における特徴学習の影響を,初めて厳密に説明するものである。
- 参考スコア(独自算出の注目度): 30.737171081270322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this manuscript we investigate the problem of how two-layer neural
networks learn features from data, and improve over the kernel regime, after
being trained with a single gradient descent step. Leveraging a connection from
(Ba et al., 2022) with a non-linear spiked matrix model and recent progress on
Gaussian universality (Dandi et al., 2023), we provide an exact asymptotic
description of the generalization error in the high-dimensional limit where the
number of samples $n$, the width $p$ and the input dimension $d$ grow at a
proportional rate. We characterize exactly how adapting to the data is crucial
for the network to efficiently learn non-linear functions in the direction of
the gradient -- where at initialization it can only express linear functions in
this regime. To our knowledge, our results provides the first tight description
of the impact of feature learning in the generalization of two-layer neural
networks in the large learning rate regime $\eta=\Theta_{d}(d)$, beyond
perturbative finite width corrections of the conjugate and neural tangent
kernels.
- Abstract(参考訳): 本稿では,2層ニューラルネットワークがデータから特徴をどのように学習するかを考察し,単一の勾配降下ステップで学習した後,カーネルレジームを改良した。
非線形スパイク行列モデル(ba et al., 2022)との接続とガウス普遍性に関する最近の進歩(dandi et al., 2023)を利用して、サンプル数$n$、幅$p$、入力次元$d$が比例率で増加する高次元極限における一般化誤差の正確な漸近的記述を提供する。
我々は、勾配方向の非線形関数を効率的に学習するネットワークにとって、データへの適応がいかに重要であるかを正確に特徴付けます。
本研究は,2層ニューラルネットワークの一般化における特徴学習の影響を,共役核と神経接核の摂動的有限幅補正を超えて,大規模学習率系$\eta=\theta_{d}(d)$ において初めて詳細に記述した。
関連論文リスト
- Benign Overfitting for Regression with Trained Two-Layer ReLU Networks [14.36840959836957]
本稿では,2層完全連結ニューラルネットワークを用いた最小二乗回帰問題と,勾配流によるReLU活性化関数について検討する。
最初の結果は一般化結果であり、基礎となる回帰関数や、それらが有界であること以外のノイズを仮定する必要はない。
論文 参考訳(メタデータ) (2024-10-08T16:54:23Z) - Automatic Optimisation of Normalised Neural Networks [1.0334138809056097]
ニューラルネットワークの正規化パラメータに対する行列多様体の幾何を考慮した自動最適化手法を提案する。
我々の手法はまずネットワークを初期化し、初期化ネットワークの$ell2$-$ell2$ゲインに関してデータを正規化する。
論文 参考訳(メタデータ) (2023-12-17T10:13:42Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Random Feature Amplification: Feature Learning and Generalization in
Neural Networks [44.431266188350655]
勾配降下法により訓練された2層ReLUネットワークにおける特徴学習過程の特徴付けを行う。
線形分類器は分布のランダムな推定に勝るものの,勾配降下により訓練された2層ReLUネットワークはラベルノイズ率に近い一般化誤差を達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:18:22Z) - Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文 参考訳(メタデータ) (2021-07-14T03:03:56Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z) - How Implicit Regularization of ReLU Neural Networks Characterizes the
Learned Function -- Part I: the 1-D Case of Two Layers with Random First
Layer [5.969858080492586]
重みをランダムに選択し、終端層のみをトレーニングする1次元(浅)ReLUニューラルネットワークを考える。
そのようなネットワークにおいて、L2-正則化回帰は関数空間において、かなり一般の損失汎関数に対する推定の第2微分を正則化するために対応することを示す。
論文 参考訳(メタデータ) (2019-11-07T13:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。