論文の概要: Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD
- arxiv url: http://arxiv.org/abs/2209.14863v1
- Date: Thu, 29 Sep 2022 15:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 16:26:41.361068
- Title: Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD
- Title(参考訳): ニューラルネットワークによるSGDによる低次元表現の学習
- Authors: Alireza Mousavi-Hosseini, Sejun Park, Manuela Girotti, Ioannis
Mitliagkas, Murat A. Erdogdu
- Abstract要約: SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
- 参考スコア(独自算出の注目度): 22.703825902761405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of training a two-layer neural network (NN) of arbitrary
width using stochastic gradient descent (SGD) where the input
$\boldsymbol{x}\in \mathbb{R}^d$ is Gaussian and the target $y \in \mathbb{R}$
follows a multiple-index model, i.e.,
$y=g(\langle\boldsymbol{u_1},\boldsymbol{x}\rangle,...,\langle\boldsymbol{u_k},\boldsymbol{x}\rangle)$
with a noisy link function $g$. We prove that the first-layer weights of the NN
converge to the $k$-dimensional principal subspace spanned by the vectors
$\boldsymbol{u_1},...,\boldsymbol{u_k}$ of the true model, when online SGD with
weight decay is used for training. This phenomenon has several important
consequences when $k \ll d$. First, by employing uniform convergence on this
smaller subspace, we establish a generalization error bound of
$\mathcal{O}(\sqrt{{kd}/{T}})$ after $T$ iterations of SGD, which is
independent of the width of the NN. We further demonstrate that, SGD-trained
ReLU NNs can learn a single-index target of the form
$y=f(\langle\boldsymbol{u},\boldsymbol{x}\rangle) + \epsilon$ by recovering the
principal direction, with a sample complexity linear in $d$ (up to log
factors), where $f$ is a monotonic function with at most polynomial growth, and
$\epsilon$ is the noise. This is in contrast to the known $d^{\Omega(p)}$
sample requirement to learn any degree $p$ polynomial in the kernel regime, and
it shows that NNs trained with SGD can outperform the neural tangent kernel at
initialization. Finally, we also provide compressibility guarantees for NNs
using the approximate low-rank structure produced by SGD.
- Abstract(参考訳): そこで、入力である\boldsymbol{x}\in \mathbb{r}^d$ がガウス型であり、ターゲットである $y \in \mathbb{r}$ が多重インデックスモデル、すなわち$y=g(\langle\boldsymbol{u_1},\boldsymbol{x}\rangle,...,\langle\boldsymbol{u_k},\boldsymbol{x}\rangle)$ に従う確率的勾配降下(sgd)を用いて、任意の幅の2層ニューラルネットワーク(nn)を訓練する問題について検討する。
NNの第1層重みは、ウェイト崩壊を伴うオンラインSGDがトレーニングに使用されるとき、真のモデルのベクトル $\boldsymbol{u_1},...,\boldsymbol{u_k}$ で表される$k$次元の主部分空間に収束することを示す。
この現象は、$k \ll d$ のときにいくつかの重要な結果をもたらす。
まず、この小さな部分空間上で一様収束を行うことで、nnの幅に依存しないsgdの$t$反復後に$\mathcal{o}(\sqrt{{{kd}/{t}})$という一般化誤差を成立させる。
さらに、SGD で訓練された ReLU NN は、主方向を回復することで $y=f(\langle\boldsymbol{u},\boldsymbol{x}\rangle) + \epsilon$ という形の単一インデックスターゲットを学習できる。
これは既知の$d^{\Omega(p)}$サンプル要件とは対照的であり、SGDで訓練されたNNが初期化時に神経タンジェントカーネルより優れていることを示している。
最後に,SGD による近似低ランク構造を用いて,NN の圧縮性を保証する。
関連論文リスト
- Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Generalization Ability of Wide Neural Networks on $\mathbb{R}$ [8.508360765158326]
広い2層ReLUニューラルネットワークのmathbbR$上での一般化能力について検討した。
$i)$幅$mrightarrowinfty$のとき、ニューラルネットワークカーネル(NNK)がNTKに均一に収束すると、$ii)$$$$K_1$のRKHSに対する回帰の最小値が$n-2/3$;$iii)$ 広義のニューラルネットワークをトレーニングする際に早期停止戦略を採用する場合、$ivとなる。
論文 参考訳(メタデータ) (2023-02-12T15:07:27Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Learning (Very) Simple Generative Models Is Hard [45.13248517769758]
我々は,$mathbbRdtobbRd'$の出力座標が$mathrmpoly(d)$ニューロンを持つ一層ReLUネットワークである場合でも,リアルタイムアルゴリズムが問題を解決可能であることを示す。
我々の証明の鍵となる要素は、コンパクトに支持されたピースワイズ線形関数$f$をニューラルネットワークで束ねたスロープで構築することであり、$mathcalN(0,1)$のプッシュフォワードは$mathcalのすべての低度モーメントと一致する。
論文 参考訳(メタデータ) (2022-05-31T17:59:09Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。