論文の概要: Implicit High-Order Moment Tensor Estimation and Learning Latent Variable Models
- arxiv url: http://arxiv.org/abs/2411.15669v1
- Date: Sat, 23 Nov 2024 23:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:22.348309
- Title: Implicit High-Order Moment Tensor Estimation and Learning Latent Variable Models
- Title(参考訳): 暗黙の高次モーメントテンソル推定と学習潜在変数モデル
- Authors: Ilias Diakonikolas, Daniel M. Kane,
- Abstract要約: 潜在変数モデル学習の課題について検討する。
一般的なアルゴリズムを利用して, 以下のモデルに対する初等学習者を得る。
- 参考スコア(独自算出の注目度): 39.33814194788341
- License:
- Abstract: We study the task of learning latent-variable models. An obstacle towards designing efficient algorithms for such models is the necessity of approximating moment tensors of super-constant degree. Motivated by such applications, we develop a general efficient algorithm for implicit moment tensor computation. Our algorithm computes in $\mathrm{poly}(d, k)$ time a succinct approximate description of tensors of the form $M_m=\sum_{i=1}^{k}w_iv_i^{\otimes m}$, for $w_i\in\mathbb{R}_+$--even for $m=\omega(1)$--assuming there exists a polynomial-size arithmetic circuit whose expected output on an appropriate samplable distribution is equal to $M_m$, and whose covariance on this input is bounded. Our framework broadly generalizes the work of~\cite{LL21-opt} which developed an efficient algorithm for the specific moment tensors that arise in clustering mixtures of spherical Gaussians. By leveraging our general algorithm, we obtain the first polynomial-time learners for the following models. * Mixtures of Linear Regressions. We give a $\mathrm{poly}(d, k, 1/\epsilon)$-time algorithm for this task. The previously best algorithm has super-polynomial complexity in $k$. * Learning Mixtures of Spherical Gaussians. We give a $\mathrm{poly}(d, k, 1/\epsilon)$-time density estimation algorithm, under the condition that the means lie in a ball of radius $O(\sqrt{\log k})$. Prior algorithms incur super-polynomial complexity in $k$. We also give a $\mathrm{poly}(d, k, 1/\epsilon)$-time parameter estimation algorithm, under the {\em optimal} mean separation of $\Omega(\log^{1/2}(k/\epsilon))$. * PAC Learning Sums of ReLUs. We give a learner with complexity $\mathrm{poly}(d, k) 2^{\mathrm{poly}(1/\epsilon)}$. This is the first algorithm for this task that runs in $\mathrm{poly}(d, k)$ time for subconstant values of $\epsilon = o_{k, d}(1)$.
- Abstract(参考訳): 潜在変数モデル学習の課題について検討する。
我々のアルゴリズムは、$\mathrm{poly}(d, k)$ time a succinct approximate description of tensors of the form $M_m=\sum_{i=1}^{k}w_iv_i^{\otimes m}$, for $w_i\in\mathbb{R}_+$-even for $m=\omega(1)$--仮定すると、適切なサンプリング可能な分布に対して期待される出力が$M_m$であり、この入力に対する共分散が有界である多項式サイズの演算回路が存在する。
球状ガウスのクラスタリング混合で生じる特定のモーメントテンソルの効率的なアルゴリズムを開発した~\cite{LL21-opt} の研究を、我々のフレームワークは広く一般化している。
この問題に対して$\mathrm{poly}(d, k, 1/\epsilon)$-timeアルゴリズムを与える。
我々は、半径$O(\sqrt{\log k})$の球にあるという条件の下で、$\mathrm{poly}(d, k, 1/\epsilon)$-time density estimationアルゴリズムを与える。
また、$\Omega(\log^{1/2}(k/\epsilon))$の分離平均の下で、$\mathrm{poly}(d, k, 1/\epsilon)$-timeパラメータ推定アルゴリズムを与える。
※ PAC Learning Sums of ReLUs
複雑性を持つ学習者には$\mathrm{poly}(d, k) 2^{\mathrm{poly}(1/\epsilon)}$を与える。
これは$\mathrm{poly}(d, k)$ time for subconstant value of $\epsilon = o_{k, d}(1)$である。
- Iterative thresholding for non-linear learning in the strong $\varepsilon$-contamination model [3.309767076331365]
線形回帰問題も研究し、$sigma(mathbfx) = mathbfx$ となる。
論文 参考訳(メタデータ) (2024-09-05T16:59:56Z) - Inverting the Leverage Score Gradient: An Efficient Approximate Newton Method [10.742859956268655]
論文 参考訳(メタデータ) (2024-08-21T01:39:42Z) - A Sub-Quadratic Time Algorithm for Robust Sparse Mean Estimation [6.853165736531941]
我々の主な貢献は、$mathrmpoly(k,log d,1/epsilon)$サンプルを用いて、エフェサブクアクラティック時間で実行される頑健なスパース平均推定アルゴリズムである。
論文 参考訳(メタデータ) (2024-03-07T18:23:51Z) - Do you know what q-means? [50.045011844765185]
また、$Obig(frack2varepsilon2(sqrtkd + log(Nd))big で実行される $varepsilon に対する "dequantized" アルゴリズムも提示する。
論文 参考訳(メタデータ) (2023-08-18T17:52:12Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Near-Optimal Bounds for Learning Gaussian Halfspaces with Random
Classification Noise [50.64137465792738]
この問題に対する効率的なSQアルゴリズムは、少なくとも$Omega(d1/2/(maxp, epsilon)2)$. のサンプル複雑性を必要とする。
論文 参考訳(メタデータ) (2023-07-13T18:59:28Z) - Near-Optimal Quantum Coreset Construction Algorithms for Clustering [15.513270929560088]
論文 参考訳(メタデータ) (2023-06-05T12:22:46Z) - Most Neural Networks Are Almost Learnable [52.40331776572531]
固定された$epsilon>0$とdeep $i$に対して、深さ$i$のランダムなXavierネットワークを学習するポリ時間アルゴリズムが存在することを示す。
このアルゴリズムは時間とサンプルの複雑さが$(bard)mathrmpoly(epsilon-1)$であり、$bar d$はネットワークのサイズである。
論文 参考訳(メタデータ) (2023-05-25T22:27:42Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Small Covers for Near-Zero Sets of Polynomials and Learning Latent
Variable Models [56.98280399449707]
我々は、s$ of cardinality $m = (k/epsilon)o_d(k1/d)$ に対して $epsilon$-cover が存在することを示す。
論文 参考訳(メタデータ) (2020-12-14T18:14:08Z)