Fugu-MT 論文翻訳(概要): Asymptotics of feature learning in two-layer networks after one gradient-step

論文の概要: Asymptotics of feature learning in two-layer networks after one gradient-step

arxiv url: http://arxiv.org/abs/2402.04980v1
Date: Wed, 7 Feb 2024 15:57:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 14:39:16.255207
Title: Asymptotics of feature learning in two-layer networks after one gradient-step
Title（参考訳）: 1段階勾配後の2層ネットワークにおける特徴学習の漸近
Authors: Hugo Cui, Luca Pesce, Yatin Dandi, Florent Krzakala, Yue M. Lu, Lenka Zdeborov\'a, Bruno Loureiro
Abstract要約: 2層ニューラルネットワークがデータからどのように学習するかを示し、単一の降下ステップでトレーニングした後、勾配のカーネル構造を改善する。本研究は,2層ニューラルネットワークの一般化における特徴学習の影響を,初めて厳密に説明するものである。
参考スコア（独自算出の注目度）: 30.737171081270322
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this manuscript we investigate the problem of how two-layer neural networks learn features from data, and improve over the kernel regime, after being trained with a single gradient descent step. Leveraging a connection from (Ba et al., 2022) with a non-linear spiked matrix model and recent progress on Gaussian universality (Dandi et al., 2023), we provide an exact asymptotic description of the generalization error in the high-dimensional limit where the number of samples $n$, the width $p$ and the input dimension $d$ grow at a proportional rate. We characterize exactly how adapting to the data is crucial for the network to efficiently learn non-linear functions in the direction of the gradient -- where at initialization it can only express linear functions in this regime. To our knowledge, our results provides the first tight description of the impact of feature learning in the generalization of two-layer neural networks in the large learning rate regime $\eta=\Theta_{d}(d)$, beyond perturbative finite width corrections of the conjugate and neural tangent kernels.
Abstract（参考訳）: 本稿では,2層ニューラルネットワークがデータから特徴をどのように学習するかを考察し,単一の勾配降下ステップで学習した後,カーネルレジームを改良した。非線形スパイク行列モデル(ba et al., 2022)との接続とガウス普遍性に関する最近の進歩(dandi et al., 2023)を利用して、サンプル数$n$、幅$p$、入力次元$d$が比例率で増加する高次元極限における一般化誤差の正確な漸近的記述を提供する。我々は、勾配方向の非線形関数を効率的に学習するネットワークにとって、データへの適応がいかに重要であるかを正確に特徴付けます。本研究は,2層ニューラルネットワークの一般化における特徴学習の影響を,共役核と神経接核の摂動的有限幅補正を超えて,大規模学習率系$\eta=\theta_{d}(d)$ において初めて詳細に記述した。

関連論文リスト

Deep Linear Network Training Dynamics from Random Initialization: Data, Width, Depth, and Hyperparameter Transfer [40.40780546513363]
我々は,枝を1/sqrttextdepth$にスケールした場合に無限の深さ制限を可能にする非残留ニューラルネットワークと残留ニューラルネットワークの両方について記述する。本モデルでは, 電力法構造データに対する高速化された電力法則トレーニングのダイナミクスを, 最近の研究で観測されたリッチな状態下で回復することを示す。
論文参考訳（メタデータ） (2025-02-04T17:50:55Z)
Benign Overfitting for Regression with Trained Two-Layer ReLU Networks [14.36840959836957]
本稿では,2層完全連結ニューラルネットワークを用いた最小二乗回帰問題と,勾配流によるReLU活性化関数について検討する。最初の結果は一般化結果であり、基礎となる回帰関数や、それらが有界であること以外のノイズを仮定する必要はない。
論文参考訳（メタデータ） (2024-10-08T16:54:23Z)
Automatic Optimisation of Normalised Neural Networks [1.0334138809056097]
ニューラルネットワークの正規化パラメータに対する行列多様体の幾何を考慮した自動最適化手法を提案する。我々の手法はまずネットワークを初期化し、初期化ネットワークの$ell2$-$ell2$ゲインに関してデータを正規化する。
論文参考訳（メタデータ） (2023-12-17T10:13:42Z)
Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文参考訳（メタデータ） (2023-02-01T03:18:07Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Random Feature Amplification: Feature Learning and Generalization in Neural Networks [44.431266188350655]
勾配降下法により訓練された2層ReLUネットワークにおける特徴学習過程の特徴付けを行う。線形分類器は分布のランダムな推定に勝るものの,勾配降下により訓練された2層ReLUネットワークはラベルノイズ率に近い一般化誤差を達成できることを示す。
論文参考訳（メタデータ） (2022-02-15T18:18:22Z)
Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文参考訳（メタデータ） (2021-07-14T03:03:56Z)
Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文参考訳（メタデータ） (2021-03-01T08:25:26Z)
Measuring Model Complexity of Neural Networks with Curve Activation Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文参考訳（メタデータ） (2020-06-16T07:38:06Z)
How Implicit Regularization of ReLU Neural Networks Characterizes the Learned Function -- Part I: the 1-D Case of Two Layers with Random First Layer [5.969858080492586]
重みをランダムに選択し、終端層のみをトレーニングする1次元(浅)ReLUニューラルネットワークを考える。そのようなネットワークにおいて、L2-正則化回帰は関数空間において、かなり一般の損失汎関数に対する推定の第2微分を正則化するために対応することを示す。
論文参考訳（メタデータ） (2019-11-07T13:48:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。