論文の概要: Overparametrized linear dimensionality reductions: From projection
pursuit to two-layer neural networks
- arxiv url: http://arxiv.org/abs/2206.06526v1
- Date: Tue, 14 Jun 2022 00:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 14:17:10.904577
- Title: Overparametrized linear dimensionality reductions: From projection
pursuit to two-layer neural networks
- Title(参考訳): 過パラメータ線形次元減少:射影追跡から2層ニューラルネットワークへ
- Authors: Andrea Montanari and Kangjie Zhou
- Abstract要約: $mathbbRd$に$n$のデータポイントのクラウドが与えられると、$mathbbRd$の$m$次元部分空間へのすべての射影を考える。
この確率分布の集まりは、$n,d$が大きくなるとどのように見えるか?
この極限の低次元射影として生じる $mathbbRm$ の確率分布の集合の α$ を $mathscrF_m で表すと、$mathscrF_ に新たな内界と外界を確立する。
- 参考スコア(独自算出の注目度): 10.368585938419619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a cloud of $n$ data points in $\mathbb{R}^d$, consider all projections
onto $m$-dimensional subspaces of $\mathbb{R}^d$ and, for each such projection,
the empirical distribution of the projected points. What does this collection
of probability distributions look like when $n,d$ grow large?
We consider this question under the null model in which the points are i.i.d.
standard Gaussian vectors, focusing on the asymptotic regime in which
$n,d\to\infty$, with $n/d\to\alpha\in (0,\infty)$, while $m$ is fixed. Denoting
by $\mathscr{F}_{m, \alpha}$ the set of probability distributions in
$\mathbb{R}^m$ that arise as low-dimensional projections in this limit, we
establish new inner and outer bounds on $\mathscr{F}_{m, \alpha}$. In
particular, we characterize the Wasserstein radius of $\mathscr{F}_{m,\alpha}$
up to logarithmic factors, and determine it exactly for $m=1$. We also prove
sharp bounds in terms of Kullback-Leibler divergence and R\'{e}nyi information
dimension.
The previous question has application to unsupervised learning methods, such
as projection pursuit and independent component analysis. We introduce a
version of the same problem that is relevant for supervised learning, and prove
a sharp Wasserstein radius bound. As an application, we establish an upper
bound on the interpolation threshold of two-layers neural networks with $m$
hidden neurons.
- Abstract(参考訳): n$のデータポイントを$\mathbb{r}^d$で与えると、$m$-次元の部分空間上のすべての射影を$\mathbb{r}^d$と考えて、そのような射影に対して、射影された点の経験的分布を考える。
この確率分布の集まりは、$n,d$が大きくなるとどのように見えるか?
この問題は、点が標準ガウスベクトルである null モデルの下で考慮し、$n,d\to\infty$, with $n/d\to\alpha\in (0,\infty)$, while $m$ is fixedな漸近的状態に焦点をあてる。
この極限において低次元射影として生じる$\mathbb{r}^m$ の確率分布の集合を $\mathscr{f}_{m, \alpha}$ で表すことにより、$\mathscr{f}_{m, \alpha}$ 上の新しい内界と外界を確立する。
特に、$\mathscr{f}_{m,\alpha}$のワッサースタイン半径を対数因子まで特徴づけ、正確には$m=1$と決定する。
また、Kulback-Leibler の発散と R\'{e}nyi の情報次元の観点から、鋭い境界を証明する。
従来の質問は、投影探索や独立成分分析などの教師なし学習手法に応用されている。
我々は、教師付き学習に関係する同じ問題のバージョンを導入し、鋭いワッサーシュタイン半径境界を証明した。
応用として, 2層ニューラルネットワークと$m$の隠れニューロンの補間しきい値の上限を確立する。
関連論文リスト
- Conditional regression for the Nonlinear Single-Variable Model [4.565636963872865]
F(X):=f(Pi_gamma):mathbbRdto[0,rmlen_gamma]$ ここで$Pi_gamma: [0,rmlen_gamma]tomathbbRd$と$f:[0,rmlen_gamma]tomathbbR1$を考える。
条件回帰に基づく非パラメトリック推定器を提案し、$one$-dimensionalOptimical min-maxレートを実現できることを示す。
論文 参考訳(メタデータ) (2024-11-14T18:53:51Z) - Dimension-free Private Mean Estimation for Anisotropic Distributions [55.86374912608193]
以前の$mathRd上の分布に関する民間推定者は、次元性の呪いに苦しむ。
本稿では,サンプルの複雑さが次元依存性を改善したアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-01T17:59:53Z) - Which exceptional low-dimensional projections of a Gaussian point cloud can be found in polynomial time? [8.74634652691576]
反復アルゴリズムのクラスで実現可能な分布のサブセット$mathscrF_m,alpha$について検討する。
統計物理学の非厳密な手法は、一般化されたパリの公式の言葉で$mathscrF_m,alpha$の間接的な特徴づけを与える。
論文 参考訳(メタデータ) (2024-06-05T05:54:56Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Debiasing and a local analysis for population clustering using
semidefinite programming [1.9761774213809036]
サブガウス分布の混合から引き出された小さいデータサンプルを$n$で分割する問題を考察する。
この研究は、起源の個体数に応じた集団化の応用によって動機付けられている。
論文 参考訳(メタデータ) (2024-01-16T03:14:24Z) - Estimation and Inference in Distributional Reinforcement Learning [28.253677740976197]
サイズ$widetilde Oleft(frac|mathcalS||mathcalA|epsilon2 (1-gamma)4right)$ suffices to ensure the Kolmogorov metric and total variation metric between $hatetapi$ and $etapi$ is below $epsilon$ with high probability。
以上の結果から,多種多様な統計的汎関数の統計的推測への統一的アプローチがもたらされた。
論文 参考訳(メタデータ) (2023-09-29T14:14:53Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Learning (Very) Simple Generative Models Is Hard [45.13248517769758]
我々は,$mathbbRdtobbRd'$の出力座標が$mathrmpoly(d)$ニューロンを持つ一層ReLUネットワークである場合でも,リアルタイムアルゴリズムが問題を解決可能であることを示す。
我々の証明の鍵となる要素は、コンパクトに支持されたピースワイズ線形関数$f$をニューラルネットワークで束ねたスロープで構築することであり、$mathcalN(0,1)$のプッシュフォワードは$mathcalのすべての低度モーメントと一致する。
論文 参考訳(メタデータ) (2022-05-31T17:59:09Z) - Optimal Spectral Recovery of a Planted Vector in a Subspace [80.02218763267992]
我々は、$ell_4$ノルムが同じ$ell$ノルムを持つガウスベクトルと異なるプラントベクトル$v$の効率的な推定と検出について研究する。
規則$n rho gg sqrtN$ では、大クラスのスペクトル法(そしてより一般的には、入力の低次法)は、植込みベクトルの検出に失敗する。
論文 参考訳(メタデータ) (2021-05-31T16:10:49Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。