論文の概要: High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation
- arxiv url: http://arxiv.org/abs/2205.01445v1
- Date: Tue, 3 May 2022 12:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 13:39:27.164762
- Title: High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation
- Title(参考訳): 特徴学習の高次元漸近:1つの段階が表現をいかに改善するか
- Authors: Jimmy Ba, Murat A. Erdogdu, Taiji Suzuki, Zhichao Wang, Denny Wu, Greg
Yang
- Abstract要約: 2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
- 参考スコア(独自算出の注目度): 89.21686761957383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the first gradient descent step on the first-layer parameters
$\boldsymbol{W}$ in a two-layer neural network: $f(\boldsymbol{x}) =
\frac{1}{\sqrt{N}}\boldsymbol{a}^\top\sigma(\boldsymbol{W}^\top\boldsymbol{x})$,
where $\boldsymbol{W}\in\mathbb{R}^{d\times N},
\boldsymbol{a}\in\mathbb{R}^{N}$ are randomly initialized, and the training
objective is the empirical MSE loss: $\frac{1}{n}\sum_{i=1}^n
(f(\boldsymbol{x}_i)-y_i)^2$. In the proportional asymptotic limit where
$n,d,N\to\infty$ at the same rate, and an idealized student-teacher setting, we
show that the first gradient update contains a rank-1 "spike", which results in
an alignment between the first-layer weights and the linear component of the
teacher model $f^*$. To characterize the impact of this alignment, we compute
the prediction risk of ridge regression on the conjugate kernel after one
gradient step on $\boldsymbol{W}$ with learning rate $\eta$, when $f^*$ is a
single-index model. We consider two scalings of the first step learning rate
$\eta$. For small $\eta$, we establish a Gaussian equivalence property for the
trained feature map, and prove that the learned kernel improves upon the
initial random features model, but cannot defeat the best linear model on the
input. Whereas for sufficiently large $\eta$, we prove that for certain $f^*$,
the same ridge estimator on trained features can go beyond this "linear regime"
and outperform a wide range of random features and rotationally invariant
kernels. Our results demonstrate that even one gradient step can lead to a
considerable advantage over random features, and highlight the role of learning
rate scaling in the initial phase of training.
- Abstract(参考訳): 第一層パラメータ $\boldsymbol{W}$ の勾配降下ステップを二層ニューラルネットワークで研究する: $f(\boldsymbol{x}) = \frac{1}{\sqrt{N}}\boldsymbol{a}^\top\sigma(\boldsymbol{W}^\top\boldsymbol{x})$ ここで、$\boldsymbol{W}\in\mathbb{R}^{d\times N}, \boldsymbol{a}\in\mathbb{R}^{N}$ はランダムに初期化され、トレーニング目的は経験的MSE損失である。
同じ速度で$n,d,N\to\infty$と理想化された学生-教師設定の比例漸近極限において、第1次勾配更新は階数1"スパイク"を含み、第1層重みと教師モデル$f^*$の線形成分との整合をもたらすことを示す。
このアライメントの影響を特徴づけるために、$f^*$が単一インデックスモデルである場合、学習レート$\eta$で$\boldsymbol{W}$上の1段階の勾配ステップ後の共役カーネル上のリッジ回帰の予測リスクを計算する。
最初のステップの学習レートは$\eta$の2つのスケーリングを考えます。
小さい$\eta$の場合、訓練された特徴写像のガウス同値性を確立し、学習されたカーネルが初期ランダム特徴モデルにより改善されるが、入力における最良の線形モデルを打ち破ることができないことを証明する。
十分に大きな$\eta$に対して、ある$f^*$の場合、訓練された特徴に対する同じリッジ推定器は、この「線形な状態」を超えて、幅広いランダムな特徴や回転不変カーネルより優れていることを証明します。
以上の結果から,1段階のグラデーションステップでもランダムな特徴よりも大きな優位性を示し,学習の初期段階における学習速度のスケーリングの役割を強調した。
関連論文リスト
- Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis [45.05072391903122]
情報指数は、オンライン勾配降下のサンプルの複雑さを予測する上で重要な役割を果たす。
マルチインデックスモデルでは、最低度のみに焦点を合わせることで、重要な構造の詳細を見逃すことができる。
2次項と高次項の両方を考慮することで、まず2次項から関連する空間を学習できることが示される。
論文 参考訳(メタデータ) (2024-10-13T00:14:08Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Solving Quadratic Systems with Full-Rank Matrices Using Sparse or Generative Priors [33.0212223058894]
二次系$y_i=boldsymbol xtopboldsymbol A_iboldsymbol x, i=1,ldots,m$とフルランク行列$boldsymbol A_i$からの信号を回復する問題は、未割り当て距離幾何学やサブ波長イメージングなどの応用で頻繁に発生する。
本稿では、$mll n$ が $boldsymbol x$ の事前知識を取り入れた高次元の場合について述べる。
論文 参考訳(メタデータ) (2023-09-16T16:00:07Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文 参考訳(メタデータ) (2022-09-29T15:29:10Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - Nearly Minimax Optimal Reinforcement Learning with Linear Function
Approximation [25.60689712525918]
本稿では,遷移確率と報酬関数が線形な線形関数近似を用いた強化学習について検討する。
本稿では,新たなアルゴリズムLSVI-UCB$+$を提案し,$H$がエピソード長,$d$が特徴次元,$T$がステップ数である場合に,$widetildeO(HdsqrtT)$ regretboundを実現する。
論文 参考訳(メタデータ) (2022-06-23T06:04:21Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。