論文の概要: Dirichlet Process-based Robust Clustering using the Median-of-Means Estimator
- arxiv url: http://arxiv.org/abs/2311.15384v2
- Date: Wed, 29 Jan 2025 06:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:52:08.493131
- Title: Dirichlet Process-based Robust Clustering using the Median-of-Means Estimator
- Title(参考訳): 中間値推定器を用いたディリクレプロセスに基づくロバストクラスタリング
- Authors: Supratik Basu, Jyotishka Ray Choudhury, Debolina Paul, Swagatam Das,
- Abstract要約: 本稿では,モデルに基づく手法とセントロイド方式の長所を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
本手法は,クラスタリングの品質に及ぼすノイズの影響を緩和するが,同時にクラスタ数を推定する。
- 参考スコア(独自算出の注目度): 16.774378814288806
- License:
- Abstract: Clustering stands as one of the most prominent challenges in unsupervised machine learning. Among centroid-based methods, the classic $k$-means algorithm, based on Lloyd's heuristic, is widely used. Nonetheless, it is a well-known fact that $k$-means and its variants face several challenges, including heavy reliance on initial cluster centroids, susceptibility to converging into local minima of the objective function, and sensitivity to outliers and noise in the data. When data contains noise or outliers, the Median-of-Means (MoM) estimator offers a robust alternative for stabilizing centroid-based methods. On a different note, another limitation in many commonly used clustering methods is the need to specify the number of clusters beforehand. Model-based approaches, such as Bayesian nonparametric models, address this issue by incorporating infinite mixture models, which eliminate the requirement for predefined cluster counts. Motivated by these facts, in this article, we propose an efficient and automatic clustering technique by integrating the strengths of model-based and centroid-based methodologies. Our method mitigates the effect of noise on the quality of clustering; while at the same time, estimates the number of clusters. Statistical guarantees on an upper bound of clustering error, and rigorous assessment through simulated and real datasets, suggest the advantages of our proposed method over existing state-of-the-art clustering algorithms.
- Abstract(参考訳): クラスタリングは、教師なし機械学習における最も顕著な課題の1つだ。
セントロイド法では、ロイドのヒューリスティックに基づく古典的な$k$-meansアルゴリズムが広く使われている。
しかしながら、$k$-meansとその変種は、初期クラスタセントロイドへの依存度、目的関数の局所的なミニマへの収束への感受性、データ内の外れ値やノイズへの感受性など、いくつかの課題に直面していることはよく知られている。
データがノイズや外れ値を含む場合、Median-of-Means (MoM) 推定器は、セントロイドベースのメソッドを安定化するための堅牢な代替手段を提供する。
別の点として、多くの一般的なクラスタリングメソッドにおける別の制限は、事前にクラスタの数を指定する必要があることである。
ベイズ的非パラメトリックモデルのようなモデルに基づくアプローチは、無限混合モデルを統合することでこの問題に対処する。
本稿では,モデルに基づく手法とセントロイド方式の長所を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
本手法は,クラスタリングの品質に及ぼすノイズの影響を緩和するが,同時にクラスタ数を推定する。
クラスタリングエラーの上限に関する統計的保証と、シミュレーションおよび実データによる厳密な評価は、既存のクラスタリングアルゴリズムに対する提案手法の利点を示唆している。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - A provable initialization and robust clustering method for general mixture models [6.806940901668607]
クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。
最新の結果は、ガウス以下の誤差を伴うセントロイドの周りにデータが分散されている場合に、最適なラベルの誤りを保証することに焦点が当てられている。
論文 参考訳(メタデータ) (2024-01-10T22:56:44Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - Envelope Imbalance Learning Algorithm based on Multilayer Fuzzy C-means
Clustering and Minimum Interlayer discrepancy [14.339674126923903]
本稿では,マルチ層ファジィc-means(MlFCM)と最小層間離散化機構(MIDMD)を用いたディープインスタンスエンベロープネットワークに基づく不均衡学習アルゴリズムを提案する。
このアルゴリズムは、事前の知識がなければ、ディープインスタンスエンベロープネットワークを使用して、高品質なバランスの取れたインスタンスを保証できる。
論文 参考訳(メタデータ) (2021-11-02T04:59:57Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - A Deep Learning Object Detection Method for an Efficient Clusters
Initialization [6.365889364810239]
クラスタリングは、銀行顧客のプロファイリング、文書検索、画像セグメンテーション、Eコマースレコメンデーションエンジンなど、多くのアプリケーションで使用されている。
既存のクラスタリング技術には、初期化パラメータに対する安定性の信頼性という大きな制限がある。
本稿では,計算オーバーヘッドとリソースオーバーヘッドの少ない最適クラスタリングパラメータを提供するソリューションを提案する。
論文 参考訳(メタデータ) (2021-04-28T08:34:25Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - K-bMOM: a robust Lloyd-type clustering algorithm based on bootstrap
Median-of-Means [3.222802562733787]
本稿では,データセットの外れ値の存在に頑健な新しいクラスタリングアルゴリズムを提案する。
我々は、中央値統計のアイデアに基づいて、セントロイドを推定するが、ブロックを構築しながら置き換えることができる。
我々は,K-means歪に対する収束率の頑健さを導出することにより,敵の汚染に対する頑健さを証明した。
論文 参考訳(メタデータ) (2020-02-10T16:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。