論文の概要: Learning (Very) Simple Generative Models Is Hard
- arxiv url: http://arxiv.org/abs/2205.16003v1
- Date: Tue, 31 May 2022 17:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 13:20:07.569383
- Title: Learning (Very) Simple Generative Models Is Hard
- Title(参考訳): 単純な生成モデルを学ぶのは難しい
- Authors: Sitan Chen, Jerry Li, Yuanzhi Li
- Abstract要約: 我々は,$mathbbRdtobbRd'$の出力座標が$mathrmpoly(d)$ニューロンを持つ一層ReLUネットワークである場合でも,リアルタイムアルゴリズムが問題を解決可能であることを示す。
我々の証明の鍵となる要素は、コンパクトに支持されたピースワイズ線形関数$f$をニューラルネットワークで束ねたスロープで構築することであり、$mathcalN(0,1)$のプッシュフォワードは$mathcalのすべての低度モーメントと一致する。
- 参考スコア(独自算出の注目度): 45.13248517769758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the recent empirical successes of deep generative models, we
study the computational complexity of the following unsupervised learning
problem. For an unknown neural network $F:\mathbb{R}^d\to\mathbb{R}^{d'}$, let
$D$ be the distribution over $\mathbb{R}^{d'}$ given by pushing the standard
Gaussian $\mathcal{N}(0,\textrm{Id}_d)$ through $F$. Given i.i.d. samples from
$D$, the goal is to output any distribution close to $D$ in statistical
distance. We show under the statistical query (SQ) model that no
polynomial-time algorithm can solve this problem even when the output
coordinates of $F$ are one-hidden-layer ReLU networks with $\log(d)$ neurons.
Previously, the best lower bounds for this problem simply followed from lower
bounds for supervised learning and required at least two hidden layers and
$\mathrm{poly}(d)$ neurons [Daniely-Vardi '21, Chen-Gollakota-Klivans-Meka
'22]. The key ingredient in our proof is an ODE-based construction of a
compactly supported, piecewise-linear function $f$ with polynomially-bounded
slopes such that the pushforward of $\mathcal{N}(0,1)$ under $f$ matches all
low-degree moments of $\mathcal{N}(0,1)$.
- Abstract(参考訳): 近年の深層生成モデルの実証的成功に触発され, 以下の教師なし学習問題の計算複雑性について検討した。
未知のニューラルネットワーク $f:\mathbb{r}^d\to\mathbb{r}^{d'}$ に対して、$d$ を標準のガウス的$\mathcal{n}(0,\textrm{id}_d)$ を$f$ で押すことによって与えられる$\mathbb{r}^{d'}$ の分布とする。
d$からのi.i.d.サンプルを考えると、目標はd$に近い分布を統計距離で出力することである。
統計的クエリ(SQ)モデルでは、$F$の出力座標が$\log(d)$ニューロンを持つ1層ReLUネットワークであっても、多項式時間アルゴリズムではこの問題を解決できない。
これまで、この問題の最良の下限は単に教師付き学習の下位境界から導かれ、少なくとも2つの隠れた層と$\mathrm{poly}(d)$ neurons [Daniely-Vardi '21, Chen-Gollakota-Klivans-Meka '22]が必要だった。
この証明の鍵となる要素は、コンパクトに支持された分割線形関数 $f$ を多項式境界の傾斜で構成することであり、$f$ 以下のプッシュフォワードは$\mathcal{n}(0,1)$ のすべての低次モーメントに一致する。
関連論文リスト
- Conditional regression for the Nonlinear Single-Variable Model [4.565636963872865]
F(X):=f(Pi_gamma):mathbbRdto[0,rmlen_gamma]$ ここで$Pi_gamma: [0,rmlen_gamma]tomathbbRd$と$f:[0,rmlen_gamma]tomathbbR1$を考える。
条件回帰に基づく非パラメトリック推定器を提案し、$one$-dimensionalOptimical min-maxレートを実現できることを示す。
論文 参考訳(メタデータ) (2024-11-14T18:53:51Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文 参考訳(メタデータ) (2022-09-29T15:29:10Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Overparametrized linear dimensionality reductions: From projection
pursuit to two-layer neural networks [10.368585938419619]
$mathbbRd$に$n$のデータポイントのクラウドが与えられると、$mathbbRd$の$m$次元部分空間へのすべての射影を考える。
この確率分布の集まりは、$n,d$が大きくなるとどのように見えるか?
この極限の低次元射影として生じる $mathbbRm$ の確率分布の集合の α$ を $mathscrF_m で表すと、$mathscrF_ に新たな内界と外界を確立する。
論文 参考訳(メタデータ) (2022-06-14T00:07:33Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。