論文の概要: Neural Networks Learn Generic Multi-Index Models Near Information-Theoretic Limit
- arxiv url: http://arxiv.org/abs/2511.15120v1
- Date: Wed, 19 Nov 2025 04:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.637861
- Title: Neural Networks Learn Generic Multi-Index Models Near Information-Theoretic Limit
- Title(参考訳): ニューラルネットワークは情報理論限界近傍の汎用マルチインデックスモデルを学習する
- Authors: Bohan Zhang, Zihao Wang, Hengyu Fu, Jason D. Lee,
- Abstract要約: 一般ガウス多次元モデル $f(boldsymbolx)=g(boldsymbolUboldsymbolx)$ の勾配降下学習を隠蔽部分空間 $boldsymbolUin mathbbRrtimes d$ で研究する。
リンク関数上の一般的な非退化仮定の下では、層次勾配勾配勾配によって訓練された標準的な2層ニューラルネットワークは、$o_d(1)$テスト誤差でターゲットを不可知的に学習できることを示す。
- 参考スコア(独自算出の注目度): 66.20349460098275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In deep learning, a central issue is to understand how neural networks efficiently learn high-dimensional features. To this end, we explore the gradient descent learning of a general Gaussian Multi-index model $f(\boldsymbol{x})=g(\boldsymbol{U}\boldsymbol{x})$ with hidden subspace $\boldsymbol{U}\in \mathbb{R}^{r\times d}$, which is the canonical setup to study representation learning. We prove that under generic non-degenerate assumptions on the link function, a standard two-layer neural network trained via layer-wise gradient descent can agnostically learn the target with $o_d(1)$ test error using $\widetilde{\mathcal{O}}(d)$ samples and $\widetilde{\mathcal{O}}(d^2)$ time. The sample and time complexity both align with the information-theoretic limit up to leading order and are therefore optimal. During the first stage of gradient descent learning, the proof proceeds via showing that the inner weights can perform a power-iteration process. This process implicitly mimics a spectral start for the whole span of the hidden subspace and eventually eliminates finite-sample noise and recovers this span. It surprisingly indicates that optimal results can only be achieved if the first layer is trained for more than $\mathcal{O}(1)$ steps. This work demonstrates the ability of neural networks to effectively learn hierarchical functions with respect to both sample and time efficiency.
- Abstract(参考訳): ディープラーニングでは、ニューラルネットワークが高次元の特徴を効率的に学習する方法を理解することが中心的な課題である。
この目的のために、一般ガウス多指標モデル $f(\boldsymbol{x})=g(\boldsymbol{U}\boldsymbol{x})$ の勾配勾配勾配学習を隠蔽部分空間 $\boldsymbol{U}\in \mathbb{R}^{r\times d}$ で探索する。
リンク関数上の一般的な非退化仮定の下では、層次勾配勾配勾配でトレーニングされた標準の2層ニューラルネットワークは、$\widetilde{\mathcal{O}}(d)$サンプルと$\widetilde{\mathcal{O}}(d^2)$時間を用いて、ターゲットを不特定に学習することができることを証明した。
サンプルと時間の複雑さは、情報理論の限界を最優先の順序まで満たし、したがって最適である。
勾配降下学習の第1段階において、この証明は内重みがパワーイテレーションプロセスを実行可能であることを示すことによって進行する。
この過程は隠れた部分空間全体のスペクトル開始を暗黙的に模倣し、最終的には有限サンプルノイズを除去し、このスパンを回復する。
これは、第1の層が$\mathcal{O}(1)$のステップでトレーニングされた場合にのみ最適な結果が得られることを驚くほど示している。
この研究は、サンプルと時間効率の両方に関して、ニューラルネットワークが階層関数を効果的に学習する能力を示す。
関連論文リスト
- Sharp Generalization for Nonparametric Regression in Interpolation Space by Over-Parameterized Neural Networks Trained with Preconditioned Gradient Descent and Early Stopping [15.975065054204753]
アルゴリズムによる保証を訓練した過パラメトリック化された2層ニューラルネットワークを用いて,非回帰について検討する。
我々は,早期停止機能を備えた新しいプレコンディショニンググレーディエント・ディフレッシュ(PGD)アルゴリズムを用いてニューラルネットワークをトレーニングすることにより,高い回帰率が得られることを示した。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - SGD Finds then Tunes Features in Two-Layer Neural Networks with
near-Optimal Sample Complexity: A Case Study in the XOR problem [1.3597551064547502]
本研究では,2層ニューラルネットワーク上でのミニバッチ降下勾配(SGD)の最適化過程について考察する。
二次 XOR' 関数 $y = -x_ix_j$ でラベル付けされた $d$-dimensional Boolean hypercube から得られるデータから、人口誤差 $o(1)$ と $d :textpolylog(d)$ のサンプルをトレーニングすることが可能であることを証明した。
論文 参考訳(メタデータ) (2023-09-26T17:57:44Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。