論文の概要: Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis
- arxiv url: http://arxiv.org/abs/2410.09678v1
- Date: Sun, 13 Oct 2024 00:14:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 08:46:35.265745
- Title: Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis
- Title(参考訳): 直交多指数モデルの学習:微細情報指数解析
- Authors: Yunwei Ren, Jason D. Lee,
- Abstract要約: 情報指数は、オンライン勾配降下のサンプルの複雑さを予測する上で重要な役割を果たす。
- 参考スコア(独自算出の注目度): 45.05072391903122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The information exponent (Ben Arous et al. [2021]) -- which is equivalent to the lowest degree in the Hermite expansion of the link function for Gaussian single-index models -- has played an important role in predicting the sample complexity of online stochastic gradient descent (SGD) in various learning tasks. In this work, we demonstrate that, for multi-index models, focusing solely on the lowest degree can miss key structural details of the model and result in suboptimal rates. Specifically, we consider the task of learning target functions of form $f_*(\mathbf{x}) = \sum_{k=1}^{P} \phi(\mathbf{v}_k^* \cdot \mathbf{x})$, where $P \ll d$, the ground-truth directions $\{ \mathbf{v}_k^* \}_{k=1}^P$ are orthonormal, and only the second and $2L$-th Hermite coefficients of the link function $\phi$ can be nonzero. Based on the theory of information exponent, when the lowest degree is $2L$, recovering the directions requires $d^{2L-1}\mathrm{poly}(P)$ samples, and when the lowest degree is $2$, only the relevant subspace (not the exact directions) can be recovered due to the rotational invariance of the second-order terms. In contrast, we show that by considering both second- and higher-order terms, we can first learn the relevant space via the second-order terms, and then the exact directions using the higher-order terms, and the overall sample and complexity of online SGD is $d \mathrm{poly}(P)$.
- Abstract(参考訳): 情報指数(Ben Arous et al [2021])は、ガウスの単一インデックスモデルにおけるリンク関数のヘルミット展開の最低度に相当するもので、様々な学習課題におけるオンライン確率勾配勾配(SGD)のサンプル複雑性を予測する上で重要な役割を果たしている。
具体的には、f_*(\mathbf{x}) = \sum_{k=1}^{P} \phi(\mathbf{v}_k^* \cdot \mathbf{x})$, ここで、$P \ll d$, the ground-truth direction $\{ \mathbf{v}_k^* \}_{k=1}^P$ は正規直交であり、リンク関数 $\phi$ の第2次および第2次エルミート係数は非ゼロである。
対照的に、二階項と高階項の両方を考慮すると、まず二階項を通して関連空間を学習し、次に高階項を用いて正確な方向を学習し、オンラインSGDの全体サンプルと複雑さは$d \mathrm{poly}(P)$であることを示す。
- Sample and Computationally Efficient Robust Learning of Gaussian Single-Index Models [37.42736399673992]
シングルインデックスモデル (SIM) は $sigma(mathbfwast cdot mathbfx)$ という形式の関数であり、$sigma: mathbbR to mathbbR$ は既知のリンク関数であり、$mathbfwast$ は隠れ単位ベクトルである。
適切な学習者が$L2$-error of $O(mathrmOPT)+epsilon$。
論文 参考訳(メタデータ) (2024-11-08T17:10:38Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Smoothing the Landscape Boosts the Signal for SGD: Optimal Sample
Complexity for Learning Single Index Models [43.83997656986799]
1つのインデックスモデル $sigma(wstar cdot x)$ を、$d$次元の等方的ガウス分布に関して学習するタスクに焦点を当てる。
スムーズな損失のオンラインSGDは、$n gtrsim dkstar/2$サンプルで$wstar$を学習する。
論文 参考訳(メタデータ) (2023-05-18T01:10:11Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Sample-Efficient Reinforcement Learning for Linearly-Parameterized MDPs
with a Generative Model [3.749193647980305]
論文 参考訳(メタデータ) (2021-05-28T17:49:39Z) - Few-Shot Learning via Learning the Representation, Provably [115.7367053639605]
論文 参考訳(メタデータ) (2020-02-21T17:30:00Z)