論文の概要: Clustering a Mixture of Gaussians with Unknown Covariance
- arxiv url: http://arxiv.org/abs/2110.01602v1
- Date: Mon, 4 Oct 2021 17:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:40:35.359249
- Title: Clustering a Mixture of Gaussians with Unknown Covariance
- Title(参考訳): 未知共分散を持つガウス系混合物のクラスタリング
- Authors: Damek Davis, Mateo Diaz, Kaizheng Wang
- Abstract要約: 最大極大推定に基づくMax-Cut整数プログラムを導出する。
最適な速度を得るが、2次サンプルサイズを必要とする効率的なスペクトルアルゴリズムを開発する。
我々は Max-Cut プログラムを$k$-means プログラムに一般化する。
- 参考スコア(独自算出の注目度): 4.821312633849745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate a clustering problem with data from a mixture of Gaussians
that share a common but unknown, and potentially ill-conditioned, covariance
matrix. We start by considering Gaussian mixtures with two equally-sized
components and derive a Max-Cut integer program based on maximum likelihood
estimation. We prove its solutions achieve the optimal misclassification rate
when the number of samples grows linearly in the dimension, up to a logarithmic
factor. However, solving the Max-cut problem appears to be computationally
intractable. To overcome this, we develop an efficient spectral algorithm that
attains the optimal rate but requires a quadratic sample size. Although this
sample complexity is worse than that of the Max-cut problem, we conjecture that
no polynomial-time method can perform better. Furthermore, we gather numerical
and theoretical evidence that supports the existence of a
statistical-computational gap. Finally, we generalize the Max-Cut program to a
$k$-means program that handles multi-component mixtures with possibly unequal
weights. It enjoys similar optimality guarantees for mixtures of distributions
that satisfy a transportation-cost inequality, encompassing Gaussian and
strongly log-concave distributions.
- Abstract(参考訳): 本稿では,共通だが未知の共分散行列を持つガウスの混合データを用いたクラスタリング問題について検討する。
まず,2つの等大成分のガウス混合を考察し,最大確率推定に基づく最大カット整数プログラムを導出する。
我々は,その解が,標本数を次元で線形に増やすと,対数係数まで最適な誤分類率を達成することを証明した。
しかし、マックスカット問題の解法は計算的に難解である。
これを克服するために,最適速度を達成するが,二次的なサンプルサイズを必要とする効率的なスペクトルアルゴリズムを開発した。
このサンプルの複雑さはマックスカット問題よりは悪いが、多項式時間法がうまく機能しないと推測する。
さらに,統計計算ギャップの存在を支持する数値的および理論的証拠を収集する。
最後に、max-cutプログラムをk$-meansプログラムに一般化し、多成分混合とおそらく不等重みを扱う。
輸送コストの不平等を満たす分布の混合に対して、ガウス分布と強い対数分布を含む同様の最適性を保証する。
関連論文リスト
- Maximum a Posteriori Inference for Factor Graphs via Benders' Decomposition [0.38233569758620056]
一般ベイズ因子モデルにおける最大a-ポストペリオーリ推定法を提案する。
ベイジアン・ガウス混合モデルと潜在ディリクレ割り当てに対するMAP推定アルゴリズムを導出する。
論文 参考訳(メタデータ) (2024-10-24T19:57:56Z) - Learning general Gaussian mixtures with efficient score matching [16.06356123715737]
我々は、$d$次元で$k$ガウシアンの混合を学習する問題を研究する。
我々は、下層の混合成分について分離を前提としない。
我々は、ターゲット混合物から$dmathrmpoly(k/varepsilon)$サンプルを抽出し、サンプル-ポリノミカル時間で実行し、サンプリング器を構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:30:36Z) - Fit Like You Sample: Sample-Efficient Generalized Score Matching from
Fast Mixing Diffusions [29.488555741982015]
幅広いマルコフ過程の混合時間と生成元 $mathcalL$ との密接な関係を示す。
我々はマルコフ連鎖を高速化し、より良いスコアマッチング損失を構築する技術に適応する。
特に、拡散のプレコンディショニング'をスコア損失の適切なプレコンディショニング'に変換することができる。
論文 参考訳(メタデータ) (2023-06-15T17:58:42Z) - Approximating a RUM from Distributions on k-Slates [88.32814292632675]
与えられた分布を平均で最もよく近似するRUMを求める一般化時間アルゴリズムを求める。
我々の理論的結果は、実世界のデータセットに効果的でスケール可能なものを得るという、実践的な結果も得られます。
論文 参考訳(メタデータ) (2023-05-22T17:43:34Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Learning Gaussian Mixtures with Generalised Linear Models: Precise
Asymptotics in High-dimensions [79.35722941720734]
多クラス分類問題に対する一般化線形モデルは、現代の機械学習タスクの基本的な構成要素の1つである。
実験的リスク最小化による高次元推定器の精度を実証する。
合成データの範囲を超えて我々の理論をどのように適用できるかを論じる。
論文 参考訳(メタデータ) (2021-06-07T16:53:56Z) - Robustly Learning Mixtures of $k$ Arbitrary Gaussians [47.40835932474677]
任意の固定された$k$に対して$k$任意のガウスの混合を$mathbbRd$で頑健に推定する問題に対して、一定数の任意の汚職が存在する場合の時間アルゴリズムを与える。
本研究の主なツールは,2乗法に依拠する効率的な分節クラスタリングアルゴリズムと,Frobeniusノルムおよび低ランク項の誤りを許容する新しいテンソル分解アルゴリズムである。
論文 参考訳(メタデータ) (2020-12-03T17:54:03Z) - Robustly Learning any Clusterable Mixture of Gaussians [55.41573600814391]
本研究では,高次元ガウス混合系の対向ロバスト条件下での効率的な学習性について検討する。
理論的に最適に近い誤り証明である$tildeO(epsilon)$の情報を、$epsilon$-corrupted $k$-mixtureで学習するアルゴリズムを提供する。
我々の主な技術的貢献は、ガウス混合系からの新しい頑健な識別可能性証明クラスターであり、これは正方形の定度証明システムによって捉えることができる。
論文 参考訳(メタデータ) (2020-05-13T16:44:12Z) - Optimal Randomized First-Order Methods for Least-Squares Problems [56.05635751529922]
このアルゴリズムのクラスは、最小二乗問題に対する最も高速な解法のうち、いくつかのランダム化手法を含んでいる。
我々は2つの古典的埋め込み、すなわちガウス射影とアダマール変換のサブサンプリングに焦点を当てる。
得られたアルゴリズムは条件数に依存しない最小二乗問題の解法として最も複雑である。
論文 参考訳(メタデータ) (2020-02-21T17:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。