論文の概要: Sum-of-squares lower bounds for Non-Gaussian Component Analysis
- arxiv url: http://arxiv.org/abs/2410.21426v1
- Date: Mon, 28 Oct 2024 18:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:45.388049
- Title: Sum-of-squares lower bounds for Non-Gaussian Component Analysis
- Title(参考訳): 非ガウス成分分析のための2乗下界の最小化
- Authors: Ilias Diakonikolas, Sushrut Karmalkar, Shuo Pang, Aaron Potechin,
- Abstract要約: 非ガウス成分分析(Non-Gaussian Component Analysis、NGCA)は、高次元データセットにおいて非ガウス方向を求める統計的タスクである。
本稿では Sum-of-Squares フレームワークにおける NGCA の複雑さについて考察する。
- 参考スコア(独自算出の注目度): 33.80749804695003
- License:
- Abstract: Non-Gaussian Component Analysis (NGCA) is the statistical task of finding a non-Gaussian direction in a high-dimensional dataset. Specifically, given i.i.d.\ samples from a distribution $P^A_{v}$ on $\mathbb{R}^n$ that behaves like a known distribution $A$ in a hidden direction $v$ and like a standard Gaussian in the orthogonal complement, the goal is to approximate the hidden direction. The standard formulation posits that the first $k-1$ moments of $A$ match those of the standard Gaussian and the $k$-th moment differs. Under mild assumptions, this problem has sample complexity $O(n)$. On the other hand, all known efficient algorithms require $\Omega(n^{k/2})$ samples. Prior work developed sharp Statistical Query and low-degree testing lower bounds suggesting an information-computation tradeoff for this problem. Here we study the complexity of NGCA in the Sum-of-Squares (SoS) framework. Our main contribution is the first super-constant degree SoS lower bound for NGCA. Specifically, we show that if the non-Gaussian distribution $A$ matches the first $(k-1)$ moments of $\mathcal{N}(0, 1)$ and satisfies other mild conditions, then with fewer than $n^{(1 - \varepsilon)k/2}$ many samples from the normal distribution, with high probability, degree $(\log n)^{{1\over 2}-o_n(1)}$ SoS fails to refute the existence of such a direction $v$. Our result significantly strengthens prior work by establishing a super-polynomial information-computation tradeoff against a broader family of algorithms. As corollaries, we obtain SoS lower bounds for several problems in robust statistics and the learning of mixture models. Our SoS lower bound proof introduces a novel technique, that we believe may be of broader interest, and a number of refinements over existing methods.
- Abstract(参考訳): 非ガウス成分分析(Non-Gaussian Component Analysis、NGCA)は、高次元データセットにおいて非ガウス方向を求める統計的タスクである。
具体的には、分布 $P^A_{v}$ on $\mathbb{R}^n$ のサンプルが、既知の分布 $A$ in a hidden direction $v$, and as a standard Gaussian in the orthogonal complement のゴールは、隠れた方向を近似することである。
本稿では Sum-of-Squares (SoS) フレームワークにおけるNGCAの複雑さについて考察する。
我々の主な貢献はNGCAに対する最初の超定常等級 SoS 下限である。
具体的には、非ガウス分布の$A$が最初の$(k-1)$のモーメントと一致して$\mathcal{N}(0, 1)$が満たされ、他の穏やかな条件を満たすならば、通常の分布からの多くのサンプルは、高い確率で$(\log n)^{{1\over 2}-o_n(1)}$ SoSはそのような方向の存在を否定することができない。
- On the query complexity of sampling from non-log-concave distributions [2.4253233571593547]
密度$p(x)propto e-f(x)$を持つ$d$次元分布からサンプリングする問題を、必ずしも良好な等尺条件を満たすとは限らない。
論文 参考訳(メタデータ) (2025-02-10T06:54:16Z) - Dimension-free Private Mean Estimation for Anisotropic Distributions [55.86374912608193]
論文 参考訳(メタデータ) (2024-11-01T17:59:53Z) - Identification of Mixtures of Discrete Product Distributions in
Near-Optimal Sample and Time Complexity [6.812247730094931]
任意の$ngeq 2k-1$に対して、サンプルの複雑さとランタイムの複雑さをどうやって達成するかを示す(1/zeta)O(k)$。
論文 参考訳(メタデータ) (2023-09-25T09:50:15Z) - Near-Optimal Bounds for Learning Gaussian Halfspaces with Random
Classification Noise [50.64137465792738]
この問題に対する効率的なSQアルゴリズムは、少なくとも$Omega(d1/2/(maxp, epsilon)2)$. のサンプル複雑性を必要とする。
論文 参考訳(メタデータ) (2023-07-13T18:59:28Z) - Gaussian Mean Testing Made Simple [46.03021473600576]
a distribution $p$ on $mathbbRd$ の i.d. サンプルを考えると、このタスクは以下のケースで高い確率で区別することである。
論文 参考訳(メタデータ) (2022-10-25T01:59:13Z) - Robust Sparse Mean Estimation via Sum of Squares [42.526664955704746]
論文 参考訳(メタデータ) (2022-06-07T16:49:54Z) - Non-Gaussian Component Analysis via Lattice Basis Reduction [56.98280399449707]
我々は,NGCA に対して,$A$ が離散的あるいはほぼ離散的であるような効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-12-16T18:38:02Z) - The Sample Complexity of Robust Covariance Testing [56.98280399449707]
i. i. d.
形式 $Z = (1-epsilon) X + epsilon B$ の分布からのサンプル。ここで $X$ はゼロ平均で未知の共分散である Gaussian $mathcalN(0, Sigma)$ である。
サンプル複雑性の上限が $omega(d2)$ for $epsilon$ an arbitrarily small constant and $gamma であることを証明します。
論文 参考訳(メタデータ) (2020-12-31T18:24:41Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)