論文の概要: Asymptotics of feature learning in two-layer networks after one gradient-step
- arxiv url: http://arxiv.org/abs/2402.04980v2
- Date: Tue, 4 Jun 2024 08:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 13:08:02.726865
- Title: Asymptotics of feature learning in two-layer networks after one gradient-step
- Title(参考訳): 1段階勾配後の2層ネットワークにおける特徴学習の漸近
- Authors: Hugo Cui, Luca Pesce, Yatin Dandi, Florent Krzakala, Yue M. Lu, Lenka Zdeborová, Bruno Loureiro,
- Abstract要約: 本研究では,2層ニューラルネットワークがデータからどのように学習するかを考察し,カーネルの仕組みを改良する。
トレーニングネットワークをスパイクされたランダム特徴量(sRF)モデルでモデル化する。
高次元極限におけるsRFの一般化誤差を正確に記述する。
- 参考スコア(独自算出の注目度): 39.02152620420932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this manuscript, we investigate the problem of how two-layer neural networks learn features from data, and improve over the kernel regime, after being trained with a single gradient descent step. Leveraging the insight from (Ba et al., 2022), we model the trained network by a spiked Random Features (sRF) model. Further building on recent progress on Gaussian universality (Dandi et al., 2023), we provide an exact asymptotic description of the generalization error of the sRF in the high-dimensional limit where the number of samples, the width, and the input dimension grow at a proportional rate. The resulting characterization for sRFs also captures closely the learning curves of the original network model. This enables us to understand how adapting to the data is crucial for the network to efficiently learn non-linear functions in the direction of the gradient -- where at initialization it can only express linear functions in this regime.
- Abstract(参考訳): 本稿では,2層ニューラルネットワークがデータから特徴を学習し,単一の勾配降下ステップで学習した後のカーネル構造を改善するという課題について考察する。
得られた知見(Ba et al , 2022)を活用して、スパイクされたランダム特徴量(sRF)モデルによりトレーニングされたネットワークをモデル化する。
ガウス普遍性に関する最近の進歩(Dandi et al , 2023)に基づいて、サンプル数、幅、入力次元が比例的に増加する高次元極限におけるsRFの一般化誤差の正確な漸近的記述を提供する。
結果として得られるsRFの特性は、元のネットワークモデルの学習曲線をよく捉えている。
これにより、ネットワークが勾配方向の非線形関数を効率的に学習する上で、データへの適応がいかに重要であるかを理解することができる。
関連論文リスト
- Benign Overfitting for Regression with Trained Two-Layer ReLU Networks [14.36840959836957]
本稿では,2層完全連結ニューラルネットワークを用いた最小二乗回帰問題と,勾配流によるReLU活性化関数について検討する。
最初の結果は一般化結果であり、基礎となる回帰関数や、それらが有界であること以外のノイズを仮定する必要はない。
論文 参考訳(メタデータ) (2024-10-08T16:54:23Z) - Automatic Optimisation of Normalised Neural Networks [1.0334138809056097]
ニューラルネットワークの正規化パラメータに対する行列多様体の幾何を考慮した自動最適化手法を提案する。
我々の手法はまずネットワークを初期化し、初期化ネットワークの$ell2$-$ell2$ゲインに関してデータを正規化する。
論文 参考訳(メタデータ) (2023-12-17T10:13:42Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Random Feature Amplification: Feature Learning and Generalization in
Neural Networks [44.431266188350655]
勾配降下法により訓練された2層ReLUネットワークにおける特徴学習過程の特徴付けを行う。
線形分類器は分布のランダムな推定に勝るものの,勾配降下により訓練された2層ReLUネットワークはラベルノイズ率に近い一般化誤差を達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:18:22Z) - Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文 参考訳(メタデータ) (2021-07-14T03:03:56Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z) - How Implicit Regularization of ReLU Neural Networks Characterizes the
Learned Function -- Part I: the 1-D Case of Two Layers with Random First
Layer [5.969858080492586]
重みをランダムに選択し、終端層のみをトレーニングする1次元(浅)ReLUニューラルネットワークを考える。
そのようなネットワークにおいて、L2-正則化回帰は関数空間において、かなり一般の損失汎関数に対する推定の第2微分を正則化するために対応することを示す。
論文 参考訳(メタデータ) (2019-11-07T13:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。