論文の概要: Learning Hierarchical Polynomials with Three-Layer Neural Networks
- arxiv url: http://arxiv.org/abs/2311.13774v1
- Date: Thu, 23 Nov 2023 02:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 00:44:34.410872
- Title: Learning Hierarchical Polynomials with Three-Layer Neural Networks
- Title(参考訳): 3層ニューラルネットワークによる階層多項式の学習
- Authors: Zihao Wang, Eshaan Nichani, Jason D. Lee
- Abstract要約: 3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
- 参考スコア(独自算出の注目度): 56.71223169861528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning hierarchical polynomials over the standard
Gaussian distribution with three-layer neural networks. We specifically
consider target functions of the form $h = g \circ p$ where $p : \mathbb{R}^d
\rightarrow \mathbb{R}$ is a degree $k$ polynomial and $g: \mathbb{R}
\rightarrow \mathbb{R}$ is a degree $q$ polynomial. This function class
generalizes the single-index model, which corresponds to $k=1$, and is a
natural class of functions possessing an underlying hierarchical structure. Our
main result shows that for a large subclass of degree $k$ polynomials $p$, a
three-layer neural network trained via layerwise gradient descent on the square
loss learns the target $h$ up to vanishing test error in
$\widetilde{\mathcal{O}}(d^k)$ samples and polynomial time. This is a strict
improvement over kernel methods, which require $\widetilde \Theta(d^{kq})$
samples, as well as existing guarantees for two-layer networks, which require
the target function to be low-rank. Our result also generalizes prior works on
three-layer neural networks, which were restricted to the case of $p$ being a
quadratic. When $p$ is indeed a quadratic, we achieve the
information-theoretically optimal sample complexity
$\widetilde{\mathcal{O}}(d^2)$, which is an improvement over prior
work~\citep{nichani2023provable} requiring a sample size of
$\widetilde\Theta(d^4)$. Our proof proceeds by showing that during the initial
stage of training the network performs feature learning to recover the feature
$p$ with $\widetilde{\mathcal{O}}(d^k)$ samples. This work demonstrates the
ability of three-layer neural networks to learn complex features and as a
result, learn a broad class of hierarchical functions.
- Abstract(参考訳): 3層ニューラルネットワークを用いた標準ガウス分布における階層多項式の学習問題について検討する。
ここで、$p : \mathbb{r}^d \rightarrow \mathbb{r}$ は次数 $k$ 多項式であり、$g: \mathbb{r} \rightarrow \mathbb{r}$ は次数 $q$ 多項式である。
この関数クラスは、$k=1$に対応する単一インデックスモデルを一般化し、基礎となる階層構造を持つ関数の自然なクラスである。
我々の主な結果は、次数$k$多項式の大規模サブクラス$p$に対して、正方形損失の層次勾配降下によってトレーニングされた3層ニューラルネットワークは、$\widetilde{\mathcal{O}}(d^k)$サンプルと多項式時間でテストエラーを消すための目標$h$を学習することを示している。
これはカーネルメソッドに対する厳格な改善であり、$\widetilde \theta(d^{kq})$サンプルと、ターゲット関数を低ランクで要求する2層ネットワークに対する既存の保証が必要である。
また,3層ニューラルネットワークに関する先行研究を一般化し,これを2次ニューラルネットワークである$p$に制限した。
実際に$p$が二次であるとき、情報理論上最適なサンプル複雑性 $\widetilde{\mathcal{O}}(d^2)$ が得られ、これは以前の作業よりも改善され、サンプルサイズが$\widetilde\Theta(d^4)$ となる。
我々の証明は、トレーニングの初期段階において、ネットワークが機能学習を行い、$\widetilde{\mathcal{O}}(d^k)$サンプルで$$p$の機能を回復することを示す。
この研究は、複雑な特徴を学習する3層ニューラルネットワークの能力を示し、その結果、階層関数の幅広いクラスを学習する。
関連論文リスト
- Learning Hierarchical Polynomials of Multiple Nonlinear Features with Three-Layer Networks [46.190882811878744]
ディープラーニング理論では、ニューラルネットワークが階層的特徴をどのように学習するかを理解することが重要な問題である。
本研究では,3層ニューラルネットワークを用いたテキストマルチプル非線形特徴の階層的学習について検討する。
論文 参考訳(メタデータ) (2024-11-26T08:14:48Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - Learning (Very) Simple Generative Models Is Hard [45.13248517769758]
我々は,$mathbbRdtobbRd'$の出力座標が$mathrmpoly(d)$ニューロンを持つ一層ReLUネットワークである場合でも,リアルタイムアルゴリズムが問題を解決可能であることを示す。
我々の証明の鍵となる要素は、コンパクトに支持されたピースワイズ線形関数$f$をニューラルネットワークで束ねたスロープで構築することであり、$mathcalN(0,1)$のプッシュフォワードは$mathcalのすべての低度モーメントと一致する。
論文 参考訳(メタデータ) (2022-05-31T17:59:09Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Sharp Representation Theorems for ReLU Networks with Precise Dependence
on Depth [26.87238691716307]
D$ReLU層を持つニューラルネットワークに対して,2乗損失下でのシャープな表現結果を証明した。
その結果、より深いネットワークはよりスムーズな関数を表現するのに優れているという仮説が実証された。
論文 参考訳(メタデータ) (2020-06-07T05:25:06Z) - A Corrective View of Neural Networks: Representation, Memorization and
Learning [26.87238691716307]
我々はニューラルネットワーク近似の補正機構を開発する。
ランダム・フィーチャー・レギュレーション(RF)における2層ニューラルネットワークは任意のラベルを記憶できることを示す。
また、3層ニューラルネットワークについても検討し、その補正機構がスムーズなラジアル関数に対する高速な表現率をもたらすことを示す。
論文 参考訳(メタデータ) (2020-02-01T20:51:09Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。