論文の概要: Enhancing cluster analysis via topological manifold learning
- arxiv url: http://arxiv.org/abs/2207.00510v1
- Date: Fri, 1 Jul 2022 15:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 16:08:15.438737
- Title: Enhancing cluster analysis via topological manifold learning
- Title(参考訳): 位相多様体学習によるクラスター解析の強化
- Authors: Moritz Herrmann, Daniyal Kazempour, Fabian Scheipl, Peer Kr\"oger
- Abstract要約: クラスタ化前にデータセットのトポロジ構造を推定することで,クラスタ検出を大幅に向上させることができることを示す。
位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。
- 参考スコア(独自算出の注目度): 0.3823356975862006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We discuss topological aspects of cluster analysis and show that inferring
the topological structure of a dataset before clustering it can considerably
enhance cluster detection: theoretical arguments and empirical evidence show
that clustering embedding vectors, representing the structure of a data
manifold instead of the observed feature vectors themselves, is highly
beneficial. To demonstrate, we combine manifold learning method UMAP for
inferring the topological structure with density-based clustering method
DBSCAN. Synthetic and real data results show that this both simplifies and
improves clustering in a diverse set of low- and high-dimensional problems
including clusters of varying density and/or entangled shapes. Our approach
simplifies clustering because topological pre-processing consistently reduces
parameter sensitivity of DBSCAN. Clustering the resulting embeddings with
DBSCAN can then even outperform complex methods such as SPECTACL and
ClusterGAN. Finally, our investigation suggests that the crucial issue in
clustering does not appear to be the nominal dimension of the data or how many
irrelevant features it contains, but rather how \textit{separable} the clusters
are in the ambient observation space they are embedded in, which is usually the
(high-dimensional) Euclidean space defined by the features of the data. Our
approach is successful because we perform the cluster analysis after projecting
the data into a more suitable space that is optimized for separability, in some
sense.
- Abstract(参考訳): クラスタ分析のトポロジ的側面を議論し、クラスタ化前にデータセットのトポロジ的構造を推定することでクラスタ検出を大幅に向上させることができることを示す。
本研究では, 位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。
合成データと実データの結果から, 異なる密度のクラスタや, あるいは絡み合った形状のクラスタを含む, 多様な低次元および高次元問題のクラスタリングを単純化し, 改善することが示された。
トポロジカル前処理はDBSCANのパラメータ感度を一貫して低下させるので,クラスタリングを単純化する。
結果の埋め込みを DBSCAN でクラスタ化することで、SPECTACL や ClusterGAN といった複雑なメソッドよりも優れています。
最後に, クラスタリングにおける重要な問題は, データの固有次元やそれに含まれる無関係な特徴の数ではなく, クラスタが組み込まれている環境観測空間にどのように存在するか, むしろデータの特徴によって定義される(高次元)ユークリッド空間であることが示唆された。
我々のアプローチは、ある意味分離性に最適化されたより適切な空間にデータを投影した後、クラスタ分析を行うので成功しています。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - scGHSOM: Hierarchical clustering and visualization of single-cell and CRISPR data using growing hierarchical SOM [0.8452349885923507]
階層型自己組織化マップ (GHSOM) を育成するアン教師なしクラスタリングによる包括的遺伝子セル依存性の可視化を提案する。
GHSOMは、クラスタの自己成長構造が必要な変動を満足するように階層構造でクラスタサンプルに適用される。
本稿では,クラスタ特徴マップとクラスタ分布マップの2つの革新的な可視化ツールを提案する。
論文 参考訳(メタデータ) (2024-07-24T04:01:09Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - flow-based clustering and spectral clustering: a comparison [0.688204255655161]
本研究では,本質的なネットワーク構造を持つデータに対する新しいグラフクラスタリング手法を提案する。
我々は、ユークリッド特徴ベクトルを構築するために、データ固有のネットワーク構造を利用する。
以上の結果から,クラスタリング手法が特定のグラフ構造に対処できることが示唆された。
論文 参考訳(メタデータ) (2022-06-20T21:49:52Z) - Swarm Intelligence for Self-Organized Clustering [6.85316573653194]
Databionic Swarm(DBS)と呼ばれるSwarmシステムが導入された。
スウォームインテリジェンス、自己組織化、出現の相互関係を利用して、DBSはクラスタリングのタスクにおけるグローバルな目的関数の最適化に対する代替アプローチとして機能する。
論文 参考訳(メタデータ) (2021-06-10T06:21:48Z) - Spatial-Spectral Clustering with Anchor Graph for Hyperspectral Image [88.60285937702304]
本稿では、HSIデータクラスタリングのための空間スペクトルクラスタリングとアンカーグラフ(SSCAG)という新しい非監視アプローチを提案する。
提案されたSSCAGは最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-04-24T08:09:27Z) - Skeleton Clustering: Dimension-Free Density-based Clustering [0.2538209532048866]
本稿では,スケルトンクラスタリングという密度に基づくクラスタリング手法を提案する。
次元の呪いを回避すべく,次元に依存しないが直感的な幾何学的解釈を持つ代理密度測度を提案する。
論文 参考訳(メタデータ) (2021-04-21T21:25:02Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。