論文の概要: Neural Networks can Learn Representations with Gradient Descent
- arxiv url: http://arxiv.org/abs/2206.15144v1
- Date: Thu, 30 Jun 2022 09:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 14:07:10.313514
- Title: Neural Networks can Learn Representations with Gradient Descent
- Title(参考訳): ニューラルネットワークはグラディエントDescentで表現を学習できる
- Authors: Alex Damian, Jason D. Lee, Mahdi Soltanolkotabi
- Abstract要約: 特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
- 参考スコア(独自算出の注目度): 68.95262816363288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant theoretical work has established that in specific regimes, neural
networks trained by gradient descent behave like kernel methods. However, in
practice, it is known that neural networks strongly outperform their associated
kernels. In this work, we explain this gap by demonstrating that there is a
large class of functions which cannot be efficiently learned by kernel methods
but can be easily learned with gradient descent on a two layer neural network
outside the kernel regime by learning representations that are relevant to the
target task. We also demonstrate that these representations allow for efficient
transfer learning, which is impossible in the kernel regime.
Specifically, we consider the problem of learning polynomials which depend on
only a few relevant directions, i.e. of the form $f^\star(x) = g(Ux)$ where $U:
\R^d \to \R^r$ with $d \gg r$. When the degree of $f^\star$ is $p$, it is known
that $n \asymp d^p$ samples are necessary to learn $f^\star$ in the kernel
regime. Our primary result is that gradient descent learns a representation of
the data which depends only on the directions relevant to $f^\star$. This
results in an improved sample complexity of $n\asymp d^2 r + dr^p$.
Furthermore, in a transfer learning setup where the data distributions in the
source and target domain share the same representation $U$ but have different
polynomial heads we show that a popular heuristic for transfer learning has a
target sample complexity independent of $d$.
- Abstract(参考訳): 重要な理論的研究により、特定の状況下では、勾配降下によって訓練されたニューラルネットワークがカーネルメソッドのように振る舞うことが判明した。
具体的には、数個の関係する方向のみに依存する多項式、すなわち$f^\star(x) = g(Ux)$, $U: \R^d \to \R^r$ with $d \gg r$の学習問題を考察する。
f^\star$ の次数が $p$ である場合、カーネルレジームで $f^\star$ を学ぶには $n \asymp d^p$ のサンプルが必要であることが知られている。
これにより、サンプルの複雑さは$n\asymp d^2 r + dr^p$ に改善される。
- Learning Hierarchical Polynomials of Multiple Nonlinear Features with Three-Layer Networks [46.190882811878744]
論文 参考訳(メタデータ) (2024-11-26T08:14:48Z) - Learning sum of diverse features: computational hardness and efficient gradient-based training for ridge combinations [40.77319247558742]
目的関数 $f_*:mathbbRdtomathbbR$ を加法構造で学習する際の計算複雑性について検討する。
論文 参考訳(メタデータ) (2024-06-17T17:59:17Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)