論文の概要: A general theory for robust clustering via trimmed mean
- arxiv url: http://arxiv.org/abs/2401.05574v1
- Date: Wed, 10 Jan 2024 22:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 01:59:54.687381
- Title: A general theory for robust clustering via trimmed mean
- Title(参考訳): トリミング平均によるロバストクラスタリングの一般理論
- Authors: Soham Jana, Jianqing Fan, Sanjeev Kulkarni
- Abstract要約: 提案手法は,新しいトリミング平均型セントロイド推定器を用いたハイブリッドクラスタリング手法を導入し,誤ラベル保証を実現する。
その結果, 誤差がガウス以下の分布に従えば, ガウス以下のケースに還元されることがわかった。
これらの初期セントロイド推定値は,その後のクラスタリングアルゴリズムにおいて,最適な誤ラベル率を達成するのに十分であることを示す。
- 参考スコア(独自算出の注目度): 7.650319416775203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering is a fundamental tool in statistical machine learning in the
presence of heterogeneous data. Many recent results focus primarily on optimal
mislabeling guarantees, when data are distributed around centroids with
sub-Gaussian errors. Yet, the restrictive sub-Gaussian model is often invalid
in practice, since various real-world applications exhibit heavy tail
distributions around the centroids or suffer from possible adversarial attacks
that call for robust clustering with a robust data-driven initialization. In
this paper, we introduce a hybrid clustering technique with a novel
multivariate trimmed mean type centroid estimate to produce mislabeling
guarantees under a weak initialization condition for general error
distributions around the centroids. A matching lower bound is derived, up to
factors depending on the number of clusters. In addition, our approach also
produces the optimal mislabeling even in the presence of adversarial outliers.
Our results reduce to the sub-Gaussian case when errors follow sub-Gaussian
distributions. To solve the problem thoroughly, we also present novel
data-driven robust initialization techniques and show that, with probabilities
approaching one, these initial centroid estimates are sufficiently good for the
subsequent clustering algorithm to achieve the optimal mislabeling rates.
Furthermore, we demonstrate that the Lloyd algorithm is suboptimal for more
than two clusters even when errors are Gaussian, and for two clusters when
errors distributions have heavy tails. Both simulated data and real data
examples lend further support to both of our robust initialization procedure
and clustering algorithm.
- Abstract(参考訳): クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最近の多くの結果は、サブガウシアンエラーのあるセントロイドの周りにデータが分散される場合の、最適なミスラベルの保証に重点を置いている。
しかし、制限付きサブガウシアンモデルはしばしば無効であり、様々な実世界のアプリケーションでは、centroids周辺に重いテール分布を示すか、堅牢なデータ駆動初期化で堅牢なクラスタリングを求める敵の攻撃に苦しむためである。
本稿では,新しい多変量トリミング平均型セントロイド推定を用いたハイブリッドクラスタリング手法を導入し,セントロイド周辺の一般誤差分布に対する弱初期化条件下での誤ラベル保証を実現する。
一致した下界が導出され、クラスタ数に依存する要因まで導出される。
さらに,本手法は,対向性外乱の存在下においても,最適な誤ラベルを生じさせる。
その結果,誤差がサブガウス分布に従う場合,サブガウス分布が減少する。
そこで本研究では,新しいデータ駆動型ロバスト初期化手法を提案するとともに,これらの初期センタロイド推定値が1つに近づくと,後続のクラスタリングアルゴリズムが最適誤ラベル率を達成するのに十分有効であることを示す。
さらに,誤差がガウス型であっても2クラスタ以上,誤差分布が重みを持つ2クラスタではロイドアルゴリズムが最適であることを示す。
シミュレーションデータと実データサンプルの両方が、ロバストな初期化手順とクラスタリングアルゴリズムの両方をサポートする。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Robust and Automatic Data Clustering: Dirichlet Process meets
Median-of-Means [18.3248037914529]
本稿では,モデルに基づく手法とセントロイド方式の原理を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
クラスタリング誤差の上限に関する統計的保証は,既存のクラスタリングアルゴリズムよりも提案手法の利点を示唆している。
論文 参考訳(メタデータ) (2023-11-26T19:01:15Z) - Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Likelihood Adjusted Semidefinite Programs for Clustering Heterogeneous
Data [16.153709556346417]
クラスタリングは広くデプロイされた学習ツールである。
iLA-SDPはEMよりも感度が低く、高次元データでは安定である。
論文 参考訳(メタデータ) (2022-09-29T21:03:13Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Deep Conditional Gaussian Mixture Model for Constrained Clustering [7.070883800886882]
制約付きクラスタリングは、部分的にラベル付けされたデータの増加量に関する事前情報を利用することができる。
本稿では、直感的で解釈可能で、勾配変動推論の枠組みで効率的に訓練できる制約付きクラスタリングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T13:38:09Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions [5.137336092866906]
データセットにおける最適なクラスタ数のロバストな決定は、広範囲のアプリケーションにおいて必須の要素である。
本稿では任意のReally Symmetric(RES)分散混合モデルで使用できるように一般化する。
サンプルサイズが有限であるデータセットに対して,ロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための近似を提供する。
論文 参考訳(メタデータ) (2020-05-04T11:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。