論文の概要: Asymptotics of feature learning in two-layer networks after one
gradient-step
- arxiv url: http://arxiv.org/abs/2402.04980v1
- Date: Wed, 7 Feb 2024 15:57:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 14:39:16.255207
- Title: Asymptotics of feature learning in two-layer networks after one
gradient-step
- Title(参考訳): 1段階勾配後の2層ネットワークにおける特徴学習の漸近
- Authors: Hugo Cui, Luca Pesce, Yatin Dandi, Florent Krzakala, Yue M. Lu, Lenka
Zdeborov\'a, Bruno Loureiro
- Abstract要約: 2層ニューラルネットワークがデータからどのように学習するかを示し、単一の降下ステップでトレーニングした後、勾配のカーネル構造を改善する。
本研究は,2層ニューラルネットワークの一般化における特徴学習の影響を,初めて厳密に説明するものである。
- 参考スコア(独自算出の注目度): 30.737171081270322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this manuscript we investigate the problem of how two-layer neural
networks learn features from data, and improve over the kernel regime, after
being trained with a single gradient descent step. Leveraging a connection from
(Ba et al., 2022) with a non-linear spiked matrix model and recent progress on
Gaussian universality (Dandi et al., 2023), we provide an exact asymptotic
description of the generalization error in the high-dimensional limit where the
number of samples $n$, the width $p$ and the input dimension $d$ grow at a
proportional rate. We characterize exactly how adapting to the data is crucial
for the network to efficiently learn non-linear functions in the direction of
the gradient -- where at initialization it can only express linear functions in
this regime. To our knowledge, our results provides the first tight description
of the impact of feature learning in the generalization of two-layer neural
networks in the large learning rate regime $\eta=\Theta_{d}(d)$, beyond
perturbative finite width corrections of the conjugate and neural tangent
kernels.
- Abstract(参考訳): 本稿では,2層ニューラルネットワークがデータから特徴をどのように学習するかを考察し,単一の勾配降下ステップで学習した後,カーネルレジームを改良した。
非線形スパイク行列モデル(ba et al., 2022)との接続とガウス普遍性に関する最近の進歩(dandi et al., 2023)を利用して、サンプル数$n$、幅$p$、入力次元$d$が比例率で増加する高次元極限における一般化誤差の正確な漸近的記述を提供する。
我々は、勾配方向の非線形関数を効率的に学習するネットワークにとって、データへの適応がいかに重要であるかを正確に特徴付けます。
本研究は,2層ニューラルネットワークの一般化における特徴学習の影響を,共役核と神経接核の摂動的有限幅補正を超えて,大規模学習率系$\eta=\theta_{d}(d)$ において初めて詳細に記述した。
関連論文リスト
- Automatic Optimisation of Normalised Neural Networks [1.0334138809056097]
ニューラルネットワークの正規化パラメータに対する行列多様体の幾何を考慮した自動最適化手法を提案する。
我々の手法はまずネットワークを初期化し、初期化ネットワークの$ell2$-$ell2$ゲインに関してデータを正規化する。
論文 参考訳(メタデータ) (2023-12-17T10:13:42Z) - A Theory of Non-Linear Feature Learning with One Gradient Step in
Two-Layer Neural Networks [47.281736451195954]
特定の条件下での2層完全連結ニューラルネットワークでは、第1層への降下の1ステップと第2層への尾根回帰が特徴学習につながる。
一定の勾配降下ステップサイズで、このスパイクは対象関数の線形成分からの情報のみを伝達する。
サンプルサイズとともに成長する学習率によって、このようなトレーニングが実際に複数のランクオンコンポーネントを導入していることを示す。
論文 参考訳(メタデータ) (2023-10-11T20:55:02Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文 参考訳(メタデータ) (2021-07-14T03:03:56Z) - A block coordinate descent optimizer for classification problems
exploiting convexity [0.0]
隠れ層の重み付けにおけるクロスエントロピー損失の凸性を利用した分類タスクのためのディープ線形ネットワークに座標降下法を導入する。
線形層に対する大域的最適パラメータと隠蔽層への勾配勾配を求める2次法とを交互に組み合わせることで、トレーニング全体を通してデータに対する適応基底の最適適合性を確保する。
論文 参考訳(メタデータ) (2020-06-17T19:49:06Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。