論文の概要: DCSI -- An improved measure of cluster separability based on separation
and connectedness
- arxiv url: http://arxiv.org/abs/2310.12806v1
- Date: Thu, 19 Oct 2023 15:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 14:48:25.806274
- Title: DCSI -- An improved measure of cluster separability based on separation
and connectedness
- Title(参考訳): DCSI -- 分離と接続性に基づくクラスタ分離性の改善尺度
- Authors: Jana Gauss, Fabian Scheipl, Moritz Herrmann
- Abstract要約: あるデータセットのクラスラベルが意味のあるクラスタに対応するかどうかは、実世界のデータセットを用いたクラスタリングアルゴリズムの評価に不可欠である。
新たに開発された尺度 (density cluster separability index, DCSI) は、これらの2つの特性を定量化することを目的としており、CVIとしても使用できる。
総合的な合成データ実験の結果,DCSIは調整済みランドインデックス(ARI)を用いて測定したDBSCANの性能と強く相関するが,マルチクラスデータセットでは堅牢性が欠如していることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whether class labels in a given data set correspond to meaningful clusters is
crucial for the evaluation of clustering algorithms using real-world data sets.
This property can be quantified by separability measures. A review of the
existing literature shows that neither classification-based complexity measures
nor cluster validity indices (CVIs) adequately incorporate the central aspects
of separability for density-based clustering: between-class separation and
within-class connectedness. A newly developed measure (density cluster
separability index, DCSI) aims to quantify these two characteristics and can
also be used as a CVI. Extensive experiments on synthetic data indicate that
DCSI correlates strongly with the performance of DBSCAN measured via the
adjusted rand index (ARI) but lacks robustness when it comes to multi-class
data sets with overlapping classes that are ill-suited for density-based hard
clustering. Detailed evaluation on frequently used real-world data sets shows
that DCSI can correctly identify touching or overlapping classes that do not
form meaningful clusters.
- Abstract(参考訳): あるデータセットのクラスラベルが意味のあるクラスタに対応するかどうかは、実世界のデータセットを用いたクラスタリングアルゴリズムの評価に不可欠である。
この性質は分離性の測定によって定量化することができる。
既存の文献のレビューでは、分類に基づく複雑性測定もクラスタ妥当性指標(CVI)も、密度に基づくクラスタリングにおける分離性の中心的な側面(クラス間分離とクラス内連結性)を適切に含まないことが示されている。
新たに開発された尺度 (density cluster separability index, DCSI) は、これらの2つの特性を定量化することを目的としており、CVIとしても使用できる。
合成データに対する大規模な実験の結果,DCSIは調整ランドインデックス(ARI)を用いて測定したDBSCANの性能と強く相関するが,密度ベースのハードクラスタリングに不適な重複クラスを持つマルチクラスデータセットでは堅牢性が欠如していることが示唆された。
頻繁に使用される実世界のデータセットに関する詳細な評価は、DCSIが意味のあるクラスタを形成していないタッチやオーバーラップするクラスを正しく識別できることを示している。
関連論文リスト
- Clustering Based on Density Propagation and Subcluster Merging [92.15924057172195]
本稿では,クラスタ数を自動的に決定し,データ空間とグラフ空間の両方に適用可能な密度に基づくノードクラスタリング手法を提案する。
二つのノード間の距離を計算する従来の密度クラスタリング法とは異なり,提案手法は伝播過程を通じて密度を決定する。
論文 参考訳(メタデータ) (2024-11-04T04:09:36Z) - SHADE: Deep Density-based Clustering [13.629470968274]
SHADEは密度接続性を損失関数に組み込む最初のディープクラスタリングアルゴリズムである。
ディープオートエンコーダの表現力で高次元および大規模データセットをサポートする。
これはクラスタリングの品質、特に非ガウスクラスタを含むデータにおいて、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-10-08T18:03:35Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Enhancing cluster analysis via topological manifold learning [0.3823356975862006]
クラスタ化前にデータセットのトポロジ構造を推定することで,クラスタ検出を大幅に向上させることができることを示す。
位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。
論文 参考訳(メタデータ) (2022-07-01T15:53:39Z) - Self-supervised Contrastive Attributed Graph Clustering [110.52694943592974]
我々は,自己教師型コントラストグラフクラスタリング(SCAGC)という,新たな属性グラフクラスタリングネットワークを提案する。
SCAGCでは,不正確なクラスタリングラベルを活用することで,ノード表現学習のための自己教師付きコントラスト損失を設計する。
OOSノードでは、SCAGCはクラスタリングラベルを直接計算できる。
論文 参考訳(メタデータ) (2021-10-15T03:25:28Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Multiscale Clustering of Hyperspectral Images Through Spectral-Spatial
Diffusion Geometry [9.619814126465206]
クラスタリングアルゴリズムはデータセットを類似点のグループに分割する。
本論文の主な貢献は,マルチスケール空間規則化拡散学習(M-SRDL)クラスタリングアルゴリズムである。
マルチスケールクラスタリングフレームワークに空間正規化を組み込むことは、hsiデータに適用するとより滑らかでより一貫性のあるクラスタに対応できることを示す。
論文 参考訳(メタデータ) (2021-03-29T17:24:28Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Supervised Enhanced Soft Subspace Clustering (SESSC) for TSK Fuzzy
Classifiers [25.32478253796209]
ファジィc平均クラスタリングアルゴリズムは,高木・スゲノカン(TSK)ファジィ分類器パラメータ推定によく用いられる。
本稿では,クラスタ内コンパクト性,クラスタ間分離,クラスタリングにおけるラベル情報とを同時に考慮した拡張ソフトサブスペースクラスタリング(SESSC)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-27T19:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。