論文の概要: Robust and Automatic Data Clustering: Dirichlet Process meets
Median-of-Means
- arxiv url: http://arxiv.org/abs/2311.15384v1
- Date: Sun, 26 Nov 2023 19:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:54:40.637074
- Title: Robust and Automatic Data Clustering: Dirichlet Process meets
Median-of-Means
- Title(参考訳): ロバストかつ自動データクラスタリング: Dirichlet ProcessがMeansの仲介者と出会う
- Authors: Supratik Basu, Jyotishka Ray Choudhury, Debolina Paul, Swagatam Das
- Abstract要約: 本稿では,モデルに基づく手法とセントロイド方式の原理を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
クラスタリング誤差の上限に関する統計的保証は,既存のクラスタリングアルゴリズムよりも提案手法の利点を示唆している。
- 参考スコア(独自算出の注目度): 18.3248037914529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering stands as one of the most prominent challenges within the realm of
unsupervised machine learning. Among the array of centroid-based clustering
algorithms, the classic $k$-means algorithm, rooted in Lloyd's heuristic, takes
center stage as one of the extensively employed techniques in the literature.
Nonetheless, both $k$-means and its variants grapple with noteworthy
limitations. These encompass a heavy reliance on initial cluster centroids,
susceptibility to converging into local minima of the objective function, and
sensitivity to outliers and noise in the data. When confronted with data
containing noisy or outlier-laden observations, the Median-of-Means (MoM)
estimator emerges as a stabilizing force for any centroid-based clustering
framework. On a different note, a prevalent constraint among existing
clustering methodologies resides in the prerequisite knowledge of the number of
clusters prior to analysis. Utilizing model-based methodologies, such as
Bayesian nonparametric models, offers the advantage of infinite mixture models,
thereby circumventing the need for such requirements. Motivated by these facts,
in this article, we present an efficient and automatic clustering technique by
integrating the principles of model-based and centroid-based methodologies that
mitigates the effect of noise on the quality of clustering while ensuring that
the number of clusters need not be specified in advance. Statistical guarantees
on the upper bound of clustering error, and rigorous assessment through
simulated and real datasets suggest the advantages of our proposed method over
existing state-of-the-art clustering algorithms.
- Abstract(参考訳): クラスタリングは、教師なし機械学習の領域における最も顕著な課題の1つである。
セントロイドベースのクラスタリングアルゴリズムの配列のうち、ロイドのヒューリスティックに根ざした古典的な$k$-meansアルゴリズムは、文献で広く使われている技法の1つとして中心的な段階を採っている。
それでも、$k$-meansとその変種には注目すべき制限がある。
これらは、初期クラスター中心に強く依存しており、目的関数の局所的ミニマムへの収束性があり、データの異常値やノイズに対する感受性が高い。
ノイズや異常値を含むデータと向き合うと、中央値推定器(mom)が任意のcentroidベースのクラスタリングフレームワークの安定化力として現れる。
別の注意として、既存のクラスタリング方法論の中で一般的な制約は、分析の前にクラスタ数に関する前提知識にある。
ベイズ非パラメトリックモデルのようなモデルベース手法を利用することで、無限混合モデルの利点が得られるため、そのような要求を回避できる。
本稿では,これらの事実に動機づけられて,クラスタ数を事前に指定せずに,ノイズがクラスタ品質に与える影響を緩和するモデルベースおよびセンタロイドベース手法の原則を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
クラスタリングエラーの上限に関する統計的保証と、シミュレーションおよび実データによる厳密な評価は、既存のクラスタリングアルゴリズムよりも提案手法の利点を示唆している。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Deep Embedding Clustering Driven by Sample Stability [16.53706617383543]
サンプル安定性(DECS)により駆動されるディープ埋め込みクラスタリングアルゴリズムを提案する。
具体的には、まずオートエンコーダで初期特徴空間を構築し、次にサンプル安定性に制約されたクラスタ指向の埋め込み機能を学ぶ。
5つのデータセットに対する実験結果から,提案手法は最先端のクラスタリング手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-01-29T09:19:49Z) - A provable initialization and robust clustering method for general mixture models [6.806940901668607]
クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最新の結果は、ガウス以下の誤差を伴うセントロイドの周りにデータが分散されている場合に、最適なラベルの誤りを保証することに焦点が当てられている。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - A Deep Learning Object Detection Method for an Efficient Clusters
Initialization [6.365889364810239]
クラスタリングは、銀行顧客のプロファイリング、文書検索、画像セグメンテーション、Eコマースレコメンデーションエンジンなど、多くのアプリケーションで使用されている。
既存のクラスタリング技術には、初期化パラメータに対する安定性の信頼性という大きな制限がある。
本稿では,計算オーバーヘッドとリソースオーバーヘッドの少ない最適クラスタリングパラメータを提供するソリューションを提案する。
論文 参考訳(メタデータ) (2021-04-28T08:34:25Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - A semi-supervised sparse K-Means algorithm [3.04585143845864]
クラスタリングに必要な機能のサブグループを検出するために、教師なしスパースクラスタリング手法を用いることができる。
半教師付き手法では、ラベル付きデータを使用して制約を作成し、クラスタリングソリューションを強化することができる。
提案アルゴリズムは,他の半教師付きアルゴリズムの高性能性を保ち,また,情報的特徴から情報的特徴を識別する能力も保持していることを示す。
論文 参考訳(メタデータ) (2020-03-16T02:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。