論文の概要: Efficient Clustering for Stretched Mixtures: Landscape and Optimality
- arxiv url: http://arxiv.org/abs/2003.09960v3
- Date: Sat, 27 Nov 2021 23:49:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:32:45.471413
- Title: Efficient Clustering for Stretched Mixtures: Landscape and Optimality
- Title(参考訳): ストレッチミキサーの効率的なクラスタリング:景観と最適性
- Authors: Kaizheng Wang, Yuling Yan, Mateo D\'iaz
- Abstract要約: 本稿では,2つの楕円分布の平衡混合から抽出された未ラベルのサンプルを受信する正準クラスタリング問題について考察する。
非最適クラスタリング関数は、サンプルサイズが一定の統計的目標を超えると、望ましい幾何学的性質を示す。
- 参考スコア(独自算出の注目度): 4.2111286819721485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers a canonical clustering problem where one receives
unlabeled samples drawn from a balanced mixture of two elliptical distributions
and aims for a classifier to estimate the labels. Many popular methods
including PCA and k-means require individual components of the mixture to be
somewhat spherical, and perform poorly when they are stretched. To overcome
this issue, we propose a non-convex program seeking for an affine transform to
turn the data into a one-dimensional point cloud concentrating around $-1$ and
$1$, after which clustering becomes easy. Our theoretical contributions are
two-fold: (1) we show that the non-convex loss function exhibits desirable
geometric properties when the sample size exceeds some constant multiple of the
dimension, and (2) we leverage this to prove that an efficient first-order
algorithm achieves near-optimal statistical precision without good
initialization. We also propose a general methodology for clustering with
flexible choices of feature transforms and loss objectives.
- Abstract(参考訳): 本稿では,2つの楕円分布の平衡混合から抽出したラベルなしサンプルを受信し,分類器がラベルを推定することを目的とした正準クラスタリング問題を考える。
PCAやk-平均を含む多くの一般的な方法では、混合物の個々の成分はある程度球状であり、伸縮すると性能が悪くなる。
この問題を克服するため,我々は,アフィン変換を求める非凸プログラムを提案する。
その結果,(1)非凸損失関数は,試料サイズが一定の次元の倍数を超える場合に望ましい幾何学的性質を示すこと,(2)効率の良い一階法アルゴリズムが適切な初期化を伴わずに最適に近い統計精度を達成することを証明した。
また,特徴変換と損失目標を柔軟に選択するクラスタリングの一般的な手法を提案する。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Anchor-free Clustering based on Anchor Graph Factorization [17.218481911995365]
Anchor Graph Factorization(AFCAGF)に基づくAnchor-free Clusteringと呼ばれる新しい手法を提案する。
AFCAGFはアンカーグラフの学習において革新的であり、サンプル間のペア距離の計算のみを必要とする。
我々は,クラスタセンターとFKMのサンプル間のメンバシップ行列の概念を,複数のアンカーポイントとサンプルを含むアンカーグラフに進化させた。
論文 参考訳(メタデータ) (2024-02-24T02:16:42Z) - Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - A provable initialization and robust clustering method for general mixture models [6.806940901668607]
クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最新の結果は、ガウス以下の誤差を伴うセントロイドの周りにデータが分散されている場合に、最適なラベルの誤りを保証することに焦点が当てられている。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Clustering based on Mixtures of Sparse Gaussian Processes [6.939768185086753]
低次元の組込み空間を使ってデータをクラスタする方法は、マシンラーニングにおいて依然として難しい問題である。
本稿では,クラスタリングと次元還元の両立を目的とした共同定式化を提案する。
我々のアルゴリズムはスパースガウス過程の混合に基づいており、スパースガウス過程混合クラスタリング(SGP-MIC)と呼ばれる。
論文 参考訳(メタデータ) (2023-03-23T20:44:36Z) - Clustering a Mixture of Gaussians with Unknown Covariance [4.821312633849745]
最大極大推定に基づくMax-Cut整数プログラムを導出する。
最適な速度を得るが、2次サンプルサイズを必要とする効率的なスペクトルアルゴリズムを開発する。
我々は Max-Cut プログラムを$k$-means プログラムに一般化する。
論文 参考訳(メタデータ) (2021-10-04T17:59:20Z) - Sparse Quadratic Optimisation over the Stiefel Manifold with Application
to Permutation Synchronisation [71.27989298860481]
二次目的関数を最大化するスティーフェル多様体上の行列を求める非最適化問題に対処する。
そこで本研究では,支配的固有空間行列を求めるための,単純かつ効果的なスパーシティプロモーティングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-30T19:17:35Z) - Deep Magnification-Flexible Upsampling over 3D Point Clouds [103.09504572409449]
本稿では,高密度点雲を生成するためのエンドツーエンド学習ベースのフレームワークを提案する。
まずこの問題を明示的に定式化し、重みと高次近似誤差を判定する。
そこで我々は,高次改良とともに,統一重みとソート重みを適応的に学習する軽量ニューラルネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-25T14:00:18Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z) - Outlier-Robust Clustering of Non-Spherical Mixtures [5.863264019032882]
統計的に分離されたd-次元ガウスアン(k-GMM)の混合をクラスタリングするための最初のアウトリー・ローバストアルゴリズムを与える。
この結果は、$d$次元単位球面上の均一分布の任意のアフィン変換のクラスタリング混合に拡張される。
論文 参考訳(メタデータ) (2020-05-06T17:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。