論文の概要: Persistent Multiscale Density-based Clustering
- arxiv url: http://arxiv.org/abs/2512.16558v1
- Date: Thu, 18 Dec 2025 14:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.086171
- Title: Persistent Multiscale Density-based Clustering
- Title(参考訳): 持続的多スケール密度クラスタリング
- Authors: Daniël Bot, Leland McInnes, Jan Aerts,
- Abstract要約: PLSCANのための空間クラスタリング
PLSCANは、HDBSCAN*が安定した(リーフ)クラスタを生成する全ての最小クラスタサイズを効率的に識別する。
PLSCANとHDBSCAN*の比較を行った。
- 参考スコア(独自算出の注目度): 0.515435457943463
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Clustering is a cornerstone of modern data analysis. Detecting clusters in exploratory data analyses (EDA) requires algorithms that make few assumptions about the data. Density-based clustering algorithms are particularly well-suited for EDA because they describe high-density regions, assuming only that a density exists. Applying density-based clustering algorithms in practice, however, requires selecting appropriate hyperparameters, which is difficult without prior knowledge of the data distribution. For example, DBSCAN requires selecting a density threshold, and HDBSCAN* relies on a minimum cluster size parameter. In this work, we propose Persistent Leaves Spatial Clustering for Applications with Noise (PLSCAN). This novel density-based clustering algorithm efficiently identifies all minimum cluster sizes for which HDBSCAN* produces stable (leaf) clusters. PLSCAN applies scale-space clustering principles and is equivalent to persistent homology on a novel metric space. We compare its performance to HDBSCAN* on several real-world datasets, demonstrating that it achieves a higher average ARI and is less sensitive to changes in the number of mutual reachability neighbours. Additionally, we compare PLSCAN's computational costs to k-Means, demonstrating competitive run-times on low-dimensional datasets. At higher dimensions, run times scale more similarly to HDBSCAN*.
- Abstract(参考訳): クラスタリングは、現代のデータ分析の土台だ。
探索データ分析(EDA)におけるクラスタの検出には、データに関する仮定がほとんどないアルゴリズムが必要である。
密度に基づくクラスタリングアルゴリズムは、密度が存在すると仮定して高密度領域を記述するため、EDAに特に適している。
しかし、実際に密度に基づくクラスタリングアルゴリズムを適用するには、適切なハイパーパラメータを選択する必要がある。
例えば、DBSCANは密度閾値を選択する必要があり、HDBSCAN*は最小クラスタサイズパラメータに依存する。
本研究では,PLSCAN (Persistent Leaves Spatial Clustering for Applications with Noise) を提案する。
この新しい密度に基づくクラスタリングアルゴリズムは、HDBSCAN*が安定な(リーフ)クラスタを生成する全ての最小クラスタサイズを効率的に同定する。
PLSCAN はスケール空間クラスタリングの原理を適用し、新しい距離空間上の永続ホモロジーと等価である。
いくつかの実世界のデータセットでHDBSCAN*と性能を比較し、平均的なARIを実現し、相互到達可能性の変化に敏感でないことを示す。
さらに,PLSCANの計算コストをk-Meansと比較し,低次元データセット上での競合実行時間を示す。
より高次元では、実行時間はHDBSCAN*とよく似ている。
関連論文リスト
- GBSK: Skeleton Clustering via Granular-ball Computing and Multi-Sampling for Large-Scale Data [62.363178614776295]
本稿では,大規模データセットのクラスタリング処理を行うために,GBSKというスケーラブルなスケルトンクラスタリングアルゴリズムを提案する。
データセットのマルチサンプリングと多粒度グラニュラーボールの構築により、GBSKは徐々に統計的「骨格」を発見
さらに,ユーザビリティの向上と現実シナリオへの展開を容易にするため,パラメータ設定を簡略化した適応型AGBSKを導入する。
論文 参考訳(メタデータ) (2025-09-28T08:41:15Z) - Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - Clustering Based on Density Propagation and Subcluster Merging [92.15924057172195]
本稿では,クラスタ数を自動的に決定し,データ空間とグラフ空間の両方に適用可能な密度に基づくノードクラスタリング手法を提案する。
二つのノード間の距離を計算する従来の密度クラスタリング法とは異なり,提案手法は伝播過程を通じて密度を決定する。
論文 参考訳(メタデータ) (2024-11-04T04:09:36Z) - Scalable Density-based Clustering with Random Projections [7.642646077340124]
本稿では,コサイン距離の高い高次元密度クラスタリングアルゴリズムであるsDBSCANを提案する。
実証的には、sDBSCANは、現実世界の百万点データセット上の他の多くのクラスタリングアルゴリズムよりもはるかに高速で精度が高い。
論文 参考訳(メタデータ) (2024-02-24T01:45:51Z) - SDC-HSDD-NDSA: Structure Detecting Cluster by Hierarchical Secondary Directed Differential with Normalized Density and Self-Adaption [0.0]
密度ベースのクラスタリングは最も人気のあるクラスタリングアルゴリズムである。
低密度領域で分離される限り、任意の形状のクラスターを識別することができる。
しかし、低密度領域で分離されていない高密度領域は、複数のクラスタに属する異なる構造を持つ可能性がある。
本稿では,この問題に対処する新しい密度クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2023-07-02T22:30:08Z) - GBMST: An Efficient Minimum Spanning Tree Clustering Based on
Granular-Ball Computing [78.92205914422925]
多粒度グラニュラバルと最小スパンニングツリー(MST)を組み合わせたクラスタリングアルゴリズムを提案する。
粒度が粗い粒状ボールを構築し,さらに粒状ボールとMSTを用いて「大規模優先度」に基づくクラスタリング手法を実装した。
いくつかのデータセットの実験結果は、アルゴリズムの威力を示している。
論文 参考訳(メタデータ) (2023-03-02T09:04:35Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。