論文の概要: Scalable Density-based Clustering with Random Projections
- arxiv url: http://arxiv.org/abs/2402.15679v1
- Date: Sat, 24 Feb 2024 01:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:30:39.747458
- Title: Scalable Density-based Clustering with Random Projections
- Title(参考訳): ランダム投影を用いたスケーラブル密度クラスタリング
- Authors: Haochuan Xu, Ninh Pham
- Abstract要約: 本稿では,コサイン距離の高い高次元密度クラスタリングアルゴリズムであるsDBSCANを提案する。
実証的には、sDBSCANは、現実世界の百万点データセット上の他の多くのクラスタリングアルゴリズムよりもはるかに高速で精度が高い。
- 参考スコア(独自算出の注目度): 9.028773906859541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present sDBSCAN, a scalable density-based clustering algorithm in high
dimensions with cosine distance. Utilizing the neighborhood-preserving property
of random projections, sDBSCAN can quickly identify core points and their
neighborhoods, the primary hurdle of density-based clustering. Theoretically,
sDBSCAN outputs a clustering structure similar to DBSCAN under mild conditions
with high probability. To further facilitate sDBSCAN, we present sOPTICS, a
scalable OPTICS for interactive exploration of the intrinsic clustering
structure. We also extend sDBSCAN and sOPTICS to L2, L1, $\chi^2$, and
Jensen-Shannon distances via random kernel features. Empirically, sDBSCAN is
significantly faster and provides higher accuracy than many other clustering
algorithms on real-world million-point data sets. On these data sets, sDBSCAN
and sOPTICS run in a few minutes, while the scikit-learn's counterparts demand
several hours or cannot run due to memory constraints.
- Abstract(参考訳): 本稿では,コサイン距離の高い高次元密度クラスタリングアルゴリズムであるsDBSCANを提案する。
ランダムな投影の近傍保存特性を利用して、sDBSCANは、密度に基づくクラスタリングの主要なハードルであるコアポイントとその近傍を素早く特定できる。
理論的には、sDBSCANはDBSCANに似たクラスタリング構造を高い確率で穏やかな条件下で出力する。
sDBSCANをさらに促進するために、本発明のクラスタリング構造をインタラクティブに探索するためのスケーラブルなOPTICSであるsOPTICSを提案する。
また、sDBSCAN と sOPTICS を L2, L1, $\chi^2$, Jensen-Shannon 距離にランダムなカーネル特徴により拡張する。
実世界の百万点データセット上の他の多くのクラスタリングアルゴリズムよりも、sdbscanは非常に高速で、高い精度を提供する。
これらのデータセットでは、sDBSCANとsOPTICSは数分で実行され、Scikit-learnはメモリ制約のために数時間、あるいは実行できない。
関連論文リスト
- LINSCAN -- A Linearity Based Clustering Algorithm [41.87020317965649]
DBSCANとOPTICSは、データ構造に関する仮定がほとんどない領域のポイントのクラスタを識別するための強力なアルゴリズムである。
我々は,既存の手法の発見と分離が困難な線形クラスタを探すために設計された新しいアルゴリズムであるLINSCANを導入する。
我々は,LINSCANを地震データに適用して,交差する断層を含む活断層を識別し,その方向を決定する方法を示す。
論文 参考訳(メタデータ) (2024-06-25T21:58:37Z) - FLASC: A Flare-Sensitive Clustering Algorithm [0.0]
本稿では,クラスタ内の分岐を検知してサブポピュレーションを同定するアルゴリズムFLASCを提案する。
アルゴリズムの2つの変種が提示され、ノイズの堅牢性に対する計算コストが取引される。
両変種は計算コストの観点からHDBSCAN*と類似してスケールし,安定した出力を提供することを示す。
論文 参考訳(メタデータ) (2023-11-27T14:55:16Z) - GBMST: An Efficient Minimum Spanning Tree Clustering Based on
Granular-Ball Computing [78.92205914422925]
多粒度グラニュラバルと最小スパンニングツリー(MST)を組み合わせたクラスタリングアルゴリズムを提案する。
粒度が粗い粒状ボールを構築し,さらに粒状ボールとMSTを用いて「大規模優先度」に基づくクラスタリング手法を実装した。
いくつかのデータセットの実験結果は、アルゴリズムの威力を示している。
論文 参考訳(メタデータ) (2023-03-02T09:04:35Z) - Local Sample-weighted Multiple Kernel Clustering with Consensus
Discriminative Graph [73.68184322526338]
マルチカーネルクラスタリング(MKC)は、ベースカーネルの集合から最適な情報融合を実現するためにコミットされる。
本稿では,新しい局所サンプル重み付きマルチカーネルクラスタリングモデルを提案する。
実験により, LSWMKCはより優れた局所多様体表現を有し, 既存のカーネルやグラフベースのクラスタリングアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-05T05:00:38Z) - An Improved Probability Propagation Algorithm for Density Peak
Clustering Based on Natural Nearest Neighborhood [0.0]
高速探索と密度ピーク(DPC)の探索によるクラスタリングは,有望なクラスタリング手法であることが証明されている。
本稿では,DPC-PPNNNに基づく密度ピーククラスタリングのための改良された確率伝搬アルゴリズムを提案する。
いくつかのデータセットの実験では、DPC-PPNNNはDPC、K-means、DBSCANを上回っている。
論文 参考訳(メタデータ) (2022-07-04T03:36:57Z) - A density peaks clustering algorithm with sparse search and K-d tree [16.141611031128427]
この問題を解決するために,スパース探索とK-d木を用いた密度ピーククラスタリングアルゴリズムを開発した。
分散特性が異なるデータセット上で、他の5つの典型的なクラスタリングアルゴリズムと比較して実験を行う。
論文 参考訳(メタデータ) (2022-03-02T09:29:40Z) - Density-Based Clustering with Kernel Diffusion [59.4179549482505]
単位$d$次元ユークリッド球のインジケータ関数に対応するナイーブ密度は、密度に基づくクラスタリングアルゴリズムで一般的に使用される。
局所分布特性と滑らかさの異なるデータに適応する新しいカーネル拡散密度関数を提案する。
論文 参考訳(メタデータ) (2021-10-11T09:00:33Z) - Fast Density Estimation for Density-based Clustering Methods [3.8972699157287702]
密度に基づくクラスタリングアルゴリズムは、パターン認識や機械学習におけるクラスタの発見に広く利用されている。
密度に基づくアルゴリズムのロバスト性は、隣人を見つけ、時間を要する各点の密度を計算することによって大きく支配される。
本稿では, 高速主成分分析による密度に基づくクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T13:59:42Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - (k, l)-Medians Clustering of Trajectories Using Continuous Dynamic Time
Warping [57.316437798033974]
本研究では,トラジェクトリの集中型クラスタリングの問題について考察する。
我々はDTWの連続バージョンを距離測定として使用することを提案し、これをCDTW(Continuous dynamic time warping)と呼ぶ。
一連の軌道から中心を計算し、その後反復的に改善する実践的な方法を示す。
論文 参考訳(メタデータ) (2020-12-01T13:17:27Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。