論文の概要: Neural Networks can Learn Representations with Gradient Descent
- arxiv url: http://arxiv.org/abs/2206.15144v1
- Date: Thu, 30 Jun 2022 09:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 14:07:10.313514
- Title: Neural Networks can Learn Representations with Gradient Descent
- Title(参考訳): ニューラルネットワークはグラディエントDescentで表現を学習できる
- Authors: Alex Damian, Jason D. Lee, Mahdi Soltanolkotabi
- Abstract要約: 特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
- 参考スコア(独自算出の注目度): 68.95262816363288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant theoretical work has established that in specific regimes, neural
networks trained by gradient descent behave like kernel methods. However, in
practice, it is known that neural networks strongly outperform their associated
kernels. In this work, we explain this gap by demonstrating that there is a
large class of functions which cannot be efficiently learned by kernel methods
but can be easily learned with gradient descent on a two layer neural network
outside the kernel regime by learning representations that are relevant to the
target task. We also demonstrate that these representations allow for efficient
transfer learning, which is impossible in the kernel regime.
Specifically, we consider the problem of learning polynomials which depend on
only a few relevant directions, i.e. of the form $f^\star(x) = g(Ux)$ where $U:
\R^d \to \R^r$ with $d \gg r$. When the degree of $f^\star$ is $p$, it is known
that $n \asymp d^p$ samples are necessary to learn $f^\star$ in the kernel
regime. Our primary result is that gradient descent learns a representation of
the data which depends only on the directions relevant to $f^\star$. This
results in an improved sample complexity of $n\asymp d^2 r + dr^p$.
Furthermore, in a transfer learning setup where the data distributions in the
source and target domain share the same representation $U$ but have different
polynomial heads we show that a popular heuristic for transfer learning has a
target sample complexity independent of $d$.
- Abstract(参考訳): 重要な理論的研究により、特定の状況下では、勾配降下によって訓練されたニューラルネットワークがカーネルメソッドのように振る舞うことが判明した。
しかし、実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
本稿では,カーネルメソッドでは効率的に学習できないが,対象タスクに関連する表現を学習することにより,カーネルレジーム外の2層ニューラルネットワーク上で勾配降下することで容易に学習できる関数群が多数存在することを示すことにより,このギャップを説明する。
また,これらの表現は,カーネルシステムでは不可能である効率的な転送学習を可能にすることを実証する。
具体的には、数個の関係する方向のみに依存する多項式、すなわち$f^\star(x) = g(Ux)$, $U: \R^d \to \R^r$ with $d \gg r$の学習問題を考察する。
f^\star$ の次数が $p$ である場合、カーネルレジームで $f^\star$ を学ぶには $n \asymp d^p$ のサンプルが必要であることが知られている。
我々の主な結果は、勾配降下が$f^\star$に関連する方向のみに依存するデータの表現を学ぶことである。
これにより、サンプルの複雑さは$n\asymp d^2 r + dr^p$ に改善される。
さらに、ソースおよびターゲットドメイン内のデータ分布が同じ表現u$を持つが、異なる多項式ヘッドを持つ転送学習セットアップでは、一般的な転送学習のヒューリスティックが、$d$とは無関係にターゲットサンプル複雑性を持つことを示す。
関連論文リスト
- Learning Hierarchical Polynomials of Multiple Nonlinear Features with Three-Layer Networks [46.190882811878744]
ディープラーニング理論では、ニューラルネットワークが階層的特徴をどのように学習するかを理解することが重要な問題である。
本研究では,3層ニューラルネットワークを用いたテキストマルチプル非線形特徴の階層的学習について検討する。
論文 参考訳(メタデータ) (2024-11-26T08:14:48Z) - Learning sum of diverse features: computational hardness and efficient gradient-based training for ridge combinations [40.77319247558742]
目的関数 $f_*:mathbbRdtomathbbR$ を加法構造で学習する際の計算複雑性について検討する。
2層ニューラルネットワークの勾配学習により,$f_*$の大規模なサブセットを効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-06-17T17:59:17Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。