論文の概要: A density peaks clustering algorithm with sparse search and K-d tree
- arxiv url: http://arxiv.org/abs/2203.00973v1
- Date: Wed, 2 Mar 2022 09:29:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 13:47:46.474776
- Title: A density peaks clustering algorithm with sparse search and K-d tree
- Title(参考訳): スパース探索とK-d木を用いた密度ピーククラスタリングアルゴリズム
- Authors: Yunxiao Shan, Shu Li, Fuxiang Li, Yuxin Cui, Shuai Li, Minghua Chen,
Xunjun He
- Abstract要約: この問題を解決するために,スパース探索とK-d木を用いた密度ピーククラスタリングアルゴリズムを開発した。
分散特性が異なるデータセット上で、他の5つの典型的なクラスタリングアルゴリズムと比較して実験を行う。
- 参考スコア(独自算出の注目度): 16.141611031128427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Density peaks clustering has become a nova of clustering algorithm because of
its simplicity and practicality. However, there is one main drawback: it is
time-consuming due to its high computational complexity. Herein, a density
peaks clustering algorithm with sparse search and K-d tree is developed to
solve this problem. Firstly, a sparse distance matrix is calculated by using
K-d tree to replace the original full rank distance matrix, so as to accelerate
the calculation of local density. Secondly, a sparse search strategy is
proposed to accelerate the computation of relative-separation with the
intersection between the set of k nearest neighbors and the set consisting of
the data points with larger local density for any data point. Furthermore, a
second-order difference method for decision values is adopted to determine the
cluster centers adaptively. Finally, experiments are carried out on datasets
with different distribution characteristics, by comparing with other five
typical clustering algorithms. It is proved that the algorithm can effectively
reduce the computational complexity. Especially for larger datasets, the
efficiency is elevated more remarkably. Moreover, the clustering accuracy is
also improved to a certain extent. Therefore, it can be concluded that the
overall performance of the newly proposed algorithm is excellent.
- Abstract(参考訳): 密度ピーククラスタリングは,その単純さと実用性から,クラスタリングアルゴリズムのノバとなっている。
しかし、大きな欠点は1つある:高い計算複雑性のために時間がかかります。
そこで,sparse search と k-d tree を用いた密度ピーククラスタリングアルゴリズムを開発した。
まず、K-d木を用いてスパース距離行列を算出し、元のフルランク距離行列を置き換えることにより局所密度の計算を高速化する。
次に,k近傍の集合と,任意のデータ点に対して局所密度が大きいデータ点からなる集合との交点との相対分離の計算を高速化するために,スパース探索戦略を提案する。
さらに、クラスター中心を適応的に決定するために、決定値の2次差分法を採用する。
最後に,他の5つのクラスタリングアルゴリズムとの比較により,分布特性の異なるデータセットについて実験を行った。
このアルゴリズムが計算複雑性を効果的に低減できることが証明された。
特に大きなデータセットでは、効率が著しく向上します。
また、クラスタリング精度もある程度向上している。
したがって,新たに提案するアルゴリズムの全体的な性能は良好であると考えられる。
関連論文リスト
- Accelerating k-Means Clustering with Cover Trees [0.30693357740321775]
表木指数に基づく新しいk-meansアルゴリズムを提案し, オーバーヘッドが比較的低く, 性能も良好である。
木集約と境界に基づくフィルタリングの利点を組み合わせたハイブリッドアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-10-19T14:02:42Z) - Linear time Evidence Accumulation Clustering with KMeans [0.0]
この研究は、平均的なリンククラスタリングの振る舞いを模倣するトリックを記述する。
分割の密度を効率よく計算する方法を見つけ、二次的な複雑さから線形的な複雑さへのコストを削減した。
k平均結果は、計算コストを低く保ちながら、NMIの観点からは、最先端の技術に匹敵する。
論文 参考訳(メタデータ) (2023-11-15T14:12:59Z) - DenMune: Density peak based clustering using mutual nearest neighbors [0.0]
多くのクラスタリングアルゴリズムは、クラスタが任意の形状、様々な密度、あるいはデータクラスが互いに不均衡で近接している場合に失敗する。
この課題を満たすために、新しいクラスタリングアルゴリズムであるDenMuneが提示されている。
これは、Kがユーザから要求される唯一のパラメータである大きさKの互いに近い近傍を用いて、密集領域を特定することに基づいている。
論文 参考訳(メタデータ) (2023-09-23T16:18:00Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - Density-Based Clustering with Kernel Diffusion [59.4179549482505]
単位$d$次元ユークリッド球のインジケータ関数に対応するナイーブ密度は、密度に基づくクラスタリングアルゴリズムで一般的に使用される。
局所分布特性と滑らかさの異なるデータに適応する新しいカーネル拡散密度関数を提案する。
論文 参考訳(メタデータ) (2021-10-11T09:00:33Z) - Fast Density Estimation for Density-based Clustering Methods [3.8972699157287702]
密度に基づくクラスタリングアルゴリズムは、パターン認識や機械学習におけるクラスタの発見に広く利用されている。
密度に基づくアルゴリズムのロバスト性は、隣人を見つけ、時間を要する各点の密度を計算することによって大きく支配される。
本稿では, 高速主成分分析による密度に基づくクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T13:59:42Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z) - Clustering of Big Data with Mixed Features [3.3504365823045044]
我々は混合型の大規模データのための新しいクラスタリングアルゴリズムを開発した。
このアルゴリズムは、比較的低い密度値の外れ値とクラスターを検出することができる。
本研究では,本アルゴリズムが実際に有効であることを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-11-11T19:54:38Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Ball k-means [53.89505717006118]
Ball k-meansアルゴリズムは、ポイントセントロイド距離計算の削減に集中して、クラスタを記述するためにボールを使用する。
高速、余分なパラメータなし、単純設計のボールk平均アルゴリズムは、素早いk平均アルゴリズムを全面的に置き換える。
論文 参考訳(メタデータ) (2020-05-02T10:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。