Fugu-MT 論文翻訳(概要): Robust and Automatic Data Clustering: Dirichlet Process meets Median-of-Means

論文の概要: Robust and Automatic Data Clustering: Dirichlet Process meets Median-of-Means

arxiv url: http://arxiv.org/abs/2311.15384v1
Date: Sun, 26 Nov 2023 19:01:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 17:54:40.637074
Title: Robust and Automatic Data Clustering: Dirichlet Process meets Median-of-Means
Title（参考訳）: ロバストかつ自動データクラスタリング: Dirichlet ProcessがMeansの仲介者と出会う
Authors: Supratik Basu, Jyotishka Ray Choudhury, Debolina Paul, Swagatam Das
Abstract要約: 本稿では,モデルに基づく手法とセントロイド方式の原理を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。クラスタリング誤差の上限に関する統計的保証は,既存のクラスタリングアルゴリズムよりも提案手法の利点を示唆している。
参考スコア（独自算出の注目度）: 18.3248037914529
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Clustering stands as one of the most prominent challenges within the realm of unsupervised machine learning. Among the array of centroid-based clustering algorithms, the classic $k$-means algorithm, rooted in Lloyd's heuristic, takes center stage as one of the extensively employed techniques in the literature. Nonetheless, both $k$-means and its variants grapple with noteworthy limitations. These encompass a heavy reliance on initial cluster centroids, susceptibility to converging into local minima of the objective function, and sensitivity to outliers and noise in the data. When confronted with data containing noisy or outlier-laden observations, the Median-of-Means (MoM) estimator emerges as a stabilizing force for any centroid-based clustering framework. On a different note, a prevalent constraint among existing clustering methodologies resides in the prerequisite knowledge of the number of clusters prior to analysis. Utilizing model-based methodologies, such as Bayesian nonparametric models, offers the advantage of infinite mixture models, thereby circumventing the need for such requirements. Motivated by these facts, in this article, we present an efficient and automatic clustering technique by integrating the principles of model-based and centroid-based methodologies that mitigates the effect of noise on the quality of clustering while ensuring that the number of clusters need not be specified in advance. Statistical guarantees on the upper bound of clustering error, and rigorous assessment through simulated and real datasets suggest the advantages of our proposed method over existing state-of-the-art clustering algorithms.
Abstract（参考訳）: クラスタリングは、教師なし機械学習の領域における最も顕著な課題の1つである。セントロイドベースのクラスタリングアルゴリズムの配列のうち、ロイドのヒューリスティックに根ざした古典的な$k$-meansアルゴリズムは、文献で広く使われている技法の1つとして中心的な段階を採っている。それでも、$k$-meansとその変種には注目すべき制限がある。これらは、初期クラスター中心に強く依存しており、目的関数の局所的ミニマムへの収束性があり、データの異常値やノイズに対する感受性が高い。ノイズや異常値を含むデータと向き合うと、中央値推定器(mom)が任意のcentroidベースのクラスタリングフレームワークの安定化力として現れる。別の注意として、既存のクラスタリング方法論の中で一般的な制約は、分析の前にクラスタ数に関する前提知識にある。ベイズ非パラメトリックモデルのようなモデルベース手法を利用することで、無限混合モデルの利点が得られるため、そのような要求を回避できる。本稿では,これらの事実に動機づけられて,クラスタ数を事前に指定せずに,ノイズがクラスタ品質に与える影響を緩和するモデルベースおよびセンタロイドベース手法の原則を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。クラスタリングエラーの上限に関する統計的保証と、シミュレーションおよび実データによる厳密な評価は、既存のクラスタリングアルゴリズムよりも提案手法の利点を示唆している。

関連論文リスト

K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。 k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文参考訳（メタデータ） (2025-05-17T08:41:07Z)
Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-24T08:59:51Z)
Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-04-07T12:25:03Z)
Deep Embedding Clustering Driven by Sample Stability [16.53706617383543]
サンプル安定性(DECS)により駆動されるディープ埋め込みクラスタリングアルゴリズムを提案する。具体的には、まずオートエンコーダで初期特徴空間を構築し、次にサンプル安定性に制約されたクラスタ指向の埋め込み機能を学ぶ。 5つのデータセットに対する実験結果から,提案手法は最先端のクラスタリング手法と比較して優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-01-29T09:19:49Z)
A provable initialization and robust clustering method for general mixture models [6.806940901668607]
クラスタリングは、異種データの存在下での統計機械学習の基本的なツールである。最新の結果は、ガウス以下の誤差を伴うセントロイドの周りにデータが分散されている場合に、最適なラベルの誤りを保証することに焦点が当てられている。
論文参考訳（メタデータ） (2024-01-10T22:56:44Z)
Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文参考訳（メタデータ） (2023-06-18T08:46:06Z)
Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文参考訳（メタデータ） (2022-10-04T15:22:39Z)
Rethinking Clustering-Based Pseudo-Labeling for Unsupervised Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文参考訳（メタデータ） (2022-09-27T19:04:36Z)
A One-shot Framework for Distributed Clustered Learning in Heterogeneous Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文参考訳（メタデータ） (2022-09-22T09:04:10Z)
Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文参考訳（メタデータ） (2022-02-01T19:31:15Z)
Envelope Imbalance Learning Algorithm based on Multilayer Fuzzy C-means Clustering and Minimum Interlayer discrepancy [14.339674126923903]
本稿では,マルチ層ファジィc-means(MlFCM)と最小層間離散化機構(MIDMD)を用いたディープインスタンスエンベロープネットワークに基づく不均衡学習アルゴリズムを提案する。このアルゴリズムは、事前の知識がなければ、ディープインスタンスエンベロープネットワークを使用して、高品質なバランスの取れたインスタンスを保証できる。
論文参考訳（メタデータ） (2021-11-02T04:59:57Z)
Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。 RTKMは他の方法と競合することを示す。
論文参考訳（メタデータ） (2021-08-16T15:49:40Z)
A Deep Learning Object Detection Method for an Efficient Clusters Initialization [6.365889364810239]
クラスタリングは、銀行顧客のプロファイリング、文書検索、画像セグメンテーション、Eコマースレコメンデーションエンジンなど、多くのアプリケーションで使用されている。既存のクラスタリング技術には、初期化パラメータに対する安定性の信頼性という大きな制限がある。本稿では,計算オーバーヘッドとリソースオーバーヘッドの少ない最適クラスタリングパラメータを提供するソリューションを提案する。
論文参考訳（メタデータ） (2021-04-28T08:34:25Z)
Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文参考訳（メタデータ） (2020-10-22T15:58:35Z)
A semi-supervised sparse K-Means algorithm [3.04585143845864]
クラスタリングに必要な機能のサブグループを検出するために、教師なしスパースクラスタリング手法を用いることができる。半教師付き手法では、ラベル付きデータを使用して制約を作成し、クラスタリングソリューションを強化することができる。提案アルゴリズムは,他の半教師付きアルゴリズムの高性能性を保ち,また,情報的特徴から情報的特徴を識別する能力も保持していることを示す。
論文参考訳（メタデータ） (2020-03-16T02:05:23Z)
K-bMOM: a robust Lloyd-type clustering algorithm based on bootstrap Median-of-Means [3.222802562733787]
本稿では,データセットの外れ値の存在に頑健な新しいクラスタリングアルゴリズムを提案する。我々は、中央値統計のアイデアに基づいて、セントロイドを推定するが、ブロックを構築しながら置き換えることができる。我々は,K-means歪に対する収束率の頑健さを導出することにより,敵の汚染に対する頑健さを証明した。
論文参考訳（メタデータ） (2020-02-10T16:08:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。