論文の概要: The Impact of Isolation Kernel on Agglomerative Hierarchical Clustering
Algorithms
- arxiv url: http://arxiv.org/abs/2010.05473v1
- Date: Mon, 12 Oct 2020 06:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 07:35:12.254136
- Title: The Impact of Isolation Kernel on Agglomerative Hierarchical Clustering
Algorithms
- Title(参考訳): 凝集型階層クラスタリングアルゴリズムにおけるアイソレーションカーネルの影響
- Authors: Xin Han, Ye Zhu, Kai Ming Ting, Gang Li
- Abstract要約: AHC(Agglomerative Hierarchical Clustering)は、一般的なクラスタリング手法の1つである。
距離測定に基づく既存のAHC法では, 密度の異なる隣接クラスタの同定が困難である。
我々は,データ依存カーネル(距離や既存のカーネルではなく)を使用することによって,それに対応する効果的な手段が提供されることを示した。
- 参考スコア(独自算出の注目度): 12.363083467305787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agglomerative hierarchical clustering (AHC) is one of the popular clustering
approaches. Existing AHC methods, which are based on a distance measure, have
one key issue: it has difficulty in identifying adjacent clusters with varied
densities, regardless of the cluster extraction methods applied on the
resultant dendrogram. In this paper, we identify the root cause of this issue
and show that the use of a data-dependent kernel (instead of distance or
existing kernel) provides an effective means to address it. We analyse the
condition under which existing AHC methods fail to extract clusters
effectively; and the reason why the data-dependent kernel is an effective
remedy. This leads to a new approach to kernerlise existing hierarchical
clustering algorithms such as existing traditional AHC algorithms, HDBSCAN, GDL
and PHA. In each of these algorithms, our empirical evaluation shows that a
recently introduced Isolation Kernel produces a higher quality or purer
dendrogram than distance, Gaussian Kernel and adaptive Gaussian Kernel.
- Abstract(参考訳): agglomerative hierarchical clustering (ahc) は一般的なクラスタリングアプローチの1つである。
既存のAHC法は距離測定に基づいており, 得られたデンドログラムに適用されるクラスタ抽出法によらず, 様々な密度の隣接クラスタを特定するのが困難である。
本稿では,この問題の根本原因を特定し,データ依存型カーネル(距離や既存のカーネルではなく)の使用が,それに対処する効果的な手段であることを示す。
本稿では,既存のahc手法がクラスタを効果的に抽出できない条件と,データ依存型カーネルが有効な対策である理由について分析する。
これにより、既存の従来のahcアルゴリズム、hdbscan、gdl、phaなどの階層的クラスタリングアルゴリズムをカーネル化する新しいアプローチが導かれる。
これらのアルゴリズムをそれぞれ評価した結果,最近導入された分離核は,距離,ガウス核,適応ガウス核よりも高品質あるいは純粋なデンドログラムを生成することがわかった。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Kernel Correlation-Dissimilarity for Multiple Kernel k-Means Clustering [21.685153346752124]
現在の手法は情報多様性を高め、相関性や相似性に基づいて複数のカーネル間の相互依存を利用して冗長性を低減する。
本稿では,カーネルの相関と相似性の両方を体系的に統合する新しい手法を提案する。
カーネル相関と相違点のコヒーレンスを強調することにより,非線形情報抽出のためのより客観的かつ透明な戦略を提供する。
論文 参考訳(メタデータ) (2024-03-06T04:24:43Z) - Linear time Evidence Accumulation Clustering with KMeans [0.0]
この研究は、平均的なリンククラスタリングの振る舞いを模倣するトリックを記述する。
分割の密度を効率よく計算する方法を見つけ、二次的な複雑さから線形的な複雑さへのコストを削減した。
k平均結果は、計算コストを低く保ちながら、NMIの観点からは、最先端の技術に匹敵する。
論文 参考訳(メタデータ) (2023-11-15T14:12:59Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Local Sample-weighted Multiple Kernel Clustering with Consensus
Discriminative Graph [73.68184322526338]
マルチカーネルクラスタリング(MKC)は、ベースカーネルの集合から最適な情報融合を実現するためにコミットされる。
本稿では,新しい局所サンプル重み付きマルチカーネルクラスタリングモデルを提案する。
実験により, LSWMKCはより優れた局所多様体表現を有し, 既存のカーネルやグラフベースのクラスタリングアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-05T05:00:38Z) - Perfect Spectral Clustering with Discrete Covariates [68.8204255655161]
本稿では,大規模なスパースネットワークのクラスにおいて,高い確率で完全クラスタリングを実現するスペクトルアルゴリズムを提案する。
本手法は,スペクトルクラスタリングによる一貫した潜在構造回復を保証する最初の方法である。
論文 参考訳(メタデータ) (2022-05-17T01:41:06Z) - Kernel k-Means, By All Means: Algorithms and Strong Consistency [21.013169939337583]
Kernel $k$クラスタリングは、非線形データの教師なし学習のための強力なツールである。
本稿では,最適化された局所解に対処するための一般的な手法を応用した結果を一般化する。
我々のアルゴリズムは、この非線形分離問題をよりよく解くために、Magricalization-minimization (MM) を利用している。
論文 参考訳(メタデータ) (2020-11-12T16:07:18Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Isolation Distributional Kernel: A New Tool for Point & Group Anomaly
Detection [76.1522587605852]
分離分散カーネル(IDK)は2つの分布の類似性を測定する新しい方法である。
我々は、カーネルベースの異常検出のための新しいツールとして、IDKの有効性と効率を示す。
論文 参考訳(メタデータ) (2020-09-24T12:25:43Z) - Fast Kernel k-means Clustering Using Incomplete Cholesky Factorization [11.631064399465089]
カーネルベースのクラスタリングアルゴリズムは、データセット内の非線形構造を特定し、キャプチャすることができる。
線形クラスタリングよりも優れたパフォーマンスを実現することができる。
カーネルマトリックス全体の計算と保存は非常に大きなメモリを占有しているため、カーネルベースのクラスタリングが大規模なデータセットを扱うことは困難である。
論文 参考訳(メタデータ) (2020-02-07T15:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。