論文の概要: Robust and Automatic Data Clustering: Dirichlet Process meets
Median-of-Means
- arxiv url: http://arxiv.org/abs/2311.15384v1
- Date: Sun, 26 Nov 2023 19:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:54:40.637074
- Title: Robust and Automatic Data Clustering: Dirichlet Process meets
Median-of-Means
- Title(参考訳): ロバストかつ自動データクラスタリング: Dirichlet ProcessがMeansの仲介者と出会う
- Authors: Supratik Basu, Jyotishka Ray Choudhury, Debolina Paul, Swagatam Das
- Abstract要約: 本稿では,モデルに基づく手法とセントロイド方式の原理を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
クラスタリング誤差の上限に関する統計的保証は,既存のクラスタリングアルゴリズムよりも提案手法の利点を示唆している。
- 参考スコア(独自算出の注目度): 18.3248037914529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering stands as one of the most prominent challenges within the realm of
unsupervised machine learning. Among the array of centroid-based clustering
algorithms, the classic $k$-means algorithm, rooted in Lloyd's heuristic, takes
center stage as one of the extensively employed techniques in the literature.
Nonetheless, both $k$-means and its variants grapple with noteworthy
limitations. These encompass a heavy reliance on initial cluster centroids,
susceptibility to converging into local minima of the objective function, and
sensitivity to outliers and noise in the data. When confronted with data
containing noisy or outlier-laden observations, the Median-of-Means (MoM)
estimator emerges as a stabilizing force for any centroid-based clustering
framework. On a different note, a prevalent constraint among existing
clustering methodologies resides in the prerequisite knowledge of the number of
clusters prior to analysis. Utilizing model-based methodologies, such as
Bayesian nonparametric models, offers the advantage of infinite mixture models,
thereby circumventing the need for such requirements. Motivated by these facts,
in this article, we present an efficient and automatic clustering technique by
integrating the principles of model-based and centroid-based methodologies that
mitigates the effect of noise on the quality of clustering while ensuring that
the number of clusters need not be specified in advance. Statistical guarantees
on the upper bound of clustering error, and rigorous assessment through
simulated and real datasets suggest the advantages of our proposed method over
existing state-of-the-art clustering algorithms.
- Abstract(参考訳): クラスタリングは、教師なし機械学習の領域における最も顕著な課題の1つである。
セントロイドベースのクラスタリングアルゴリズムの配列のうち、ロイドのヒューリスティックに根ざした古典的な$k$-meansアルゴリズムは、文献で広く使われている技法の1つとして中心的な段階を採っている。
それでも、$k$-meansとその変種には注目すべき制限がある。
これらは、初期クラスター中心に強く依存しており、目的関数の局所的ミニマムへの収束性があり、データの異常値やノイズに対する感受性が高い。
ノイズや異常値を含むデータと向き合うと、中央値推定器(mom)が任意のcentroidベースのクラスタリングフレームワークの安定化力として現れる。
別の注意として、既存のクラスタリング方法論の中で一般的な制約は、分析の前にクラスタ数に関する前提知識にある。
ベイズ非パラメトリックモデルのようなモデルベース手法を利用することで、無限混合モデルの利点が得られるため、そのような要求を回避できる。
本稿では,これらの事実に動機づけられて,クラスタ数を事前に指定せずに,ノイズがクラスタ品質に与える影響を緩和するモデルベースおよびセンタロイドベース手法の原則を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
クラスタリングエラーの上限に関する統計的保証と、シミュレーションおよび実データによる厳密な評価は、既存のクラスタリングアルゴリズムよりも提案手法の利点を示唆している。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - A provable initialization and robust clustering method for general mixture models [6.806940901668607]
クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最新の結果は、ガウス以下の誤差を伴うセントロイドの周りにデータが分散されている場合に、最適なラベルの誤りを保証することに焦点が当てられている。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - Envelope Imbalance Learning Algorithm based on Multilayer Fuzzy C-means
Clustering and Minimum Interlayer discrepancy [14.339674126923903]
本稿では,マルチ層ファジィc-means(MlFCM)と最小層間離散化機構(MIDMD)を用いたディープインスタンスエンベロープネットワークに基づく不均衡学習アルゴリズムを提案する。
このアルゴリズムは、事前の知識がなければ、ディープインスタンスエンベロープネットワークを使用して、高品質なバランスの取れたインスタンスを保証できる。
論文 参考訳(メタデータ) (2021-11-02T04:59:57Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - A Deep Learning Object Detection Method for an Efficient Clusters
Initialization [6.365889364810239]
クラスタリングは、銀行顧客のプロファイリング、文書検索、画像セグメンテーション、Eコマースレコメンデーションエンジンなど、多くのアプリケーションで使用されている。
既存のクラスタリング技術には、初期化パラメータに対する安定性の信頼性という大きな制限がある。
本稿では,計算オーバーヘッドとリソースオーバーヘッドの少ない最適クラスタリングパラメータを提供するソリューションを提案する。
論文 参考訳(メタデータ) (2021-04-28T08:34:25Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - K-bMOM: a robust Lloyd-type clustering algorithm based on bootstrap
Median-of-Means [3.222802562733787]
本稿では,データセットの外れ値の存在に頑健な新しいクラスタリングアルゴリズムを提案する。
我々は、中央値統計のアイデアに基づいて、セントロイドを推定するが、ブロックを構築しながら置き換えることができる。
我々は,K-means歪に対する収束率の頑健さを導出することにより,敵の汚染に対する頑健さを証明した。
論文 参考訳(メタデータ) (2020-02-10T16:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。