論文の概要: Estimating the Optimal Number of Clusters in Categorical Data Clustering by Silhouette Coefficient
- arxiv url: http://arxiv.org/abs/2501.15542v1
- Date: Sun, 26 Jan 2025 14:29:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:55:25.693129
- Title: Estimating the Optimal Number of Clusters in Categorical Data Clustering by Silhouette Coefficient
- Title(参考訳): シルエット係数によるカテゴリーデータクラスタリングにおけるクラスタ数の最適推定
- Authors: Duy-Tai Dinh, Tsutomu Fujinami, Van-Nam Huynh,
- Abstract要約: 本稿では,分類データクラスタリングにおける最適kを推定するアルゴリズムk-SCCを提案する。
k-SCCの性能を比較するために, 合成データセットと実データセットの比較実験を行った。
- 参考スコア(独自算出の注目度): 0.5939858158928473
- License:
- Abstract: The problem of estimating the number of clusters (say k) is one of the major challenges for the partitional clustering. This paper proposes an algorithm named k-SCC to estimate the optimal k in categorical data clustering. For the clustering step, the algorithm uses the kernel density estimation approach to define cluster centers. In addition, it uses an information-theoretic based dissimilarity to measure the distance between centers and objects in each cluster. The silhouette analysis based approach is then used to evaluate the quality of different clustering obtained in the former step to choose the best k. Comparative experiments were conducted on both synthetic and real datasets to compare the performance of k-SCC with three other algorithms. Experimental results show that k-SCC outperforms the compared algorithms in determining the number of clusters for each dataset.
- Abstract(参考訳): クラスタ数(例えばk)を推定する問題は、分割クラスタリングにおける大きな課題の1つである。
本稿では,分類データクラスタリングにおける最適kを推定するアルゴリズムk-SCCを提案する。
クラスタリングのステップでは、アルゴリズムはクラスタセンターを定義するためにカーネル密度推定アプローチを使用する。
さらに、情報理論に基づく相似性を用いて、各クラスタ内の中心とオブジェクト間の距離を測定する。
次に、シルエット解析に基づくアプローチを用いて、前のステップで得られた異なるクラスタリングの品質を評価し、最良のkを選択する。
k-SCCの性能を他の3つのアルゴリズムと比較するために、合成データセットと実データセットの比較実験を行った。
実験の結果,k-SCCは各データセットのクラスタ数を決定する際に比較アルゴリズムよりも優れていた。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - POCS-based Clustering Algorithm [0.0]
本稿では,POCSに基づくクラスタリングアルゴリズムと呼ばれる,POCS法に基づく新しいクラスタリング手法を提案する。
提案するクラスタリングアルゴリズムは,POCSの並列プロジェクション手法を利用して,特徴空間に適切なクラスタプロトタイプを求める。
提案するPOCSクラスタリングアルゴリズムの性能は, 各種合成データセットを用いた実験により検証した。
論文 参考訳(メタデータ) (2022-08-15T12:33:09Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - A sampling-based approach for efficient clustering in large datasets [0.8952229340927184]
本稿では,多数のクラスタを持つ高次元データに対して,簡便かつ効率的なクラスタリング手法を提案する。
私たちのコントリビューションは、データポイントとクラスタの完全な比較を必要としないため、k-meansよりもはるかに効率的です。
論文 参考訳(メタデータ) (2021-12-29T19:15:20Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - A Multi-disciplinary Ensemble Algorithm for Clustering Heterogeneous
Datasets [0.76146285961466]
本稿では,社会階級ランキングとメタヒューリスティックアルゴリズムに基づく進化的クラスタリングアルゴリズム(ECAStar)を提案する。
ECAStarは、再共生進化演算子、レヴィ飛行最適化、いくつかの統計技術と統合されている。
従来の5つのアプローチに対してECAStarを評価する実験を行った。
論文 参考訳(メタデータ) (2021-01-01T07:20:50Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。