論文の概要: Clustering by Mining Density Distributions and Splitting Manifold Structure
- arxiv url: http://arxiv.org/abs/2408.10493v2
- Date: Wed, 18 Dec 2024 03:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:23:52.570715
- Title: Clustering by Mining Density Distributions and Splitting Manifold Structure
- Title(参考訳): マイニング密度分布と分割マニフォールド構造によるクラスタリング
- Authors: Zhichang Xu, Zhiguo Long, Hua Meng,
- Abstract要約: 近年,スペクトルクラスタリングの効率向上のためのトップダウン手法が提案されている。
本稿では,局所構造からマイクロクラスターを得る方法を提案する。
その後、最終的なスペクトルクラスタリングのために、マイクロクラスタ間の新しい類似度尺度が提案される。
- 参考スコア(独自算出の注目度): 2.3759432635713895
- License:
- Abstract: Spectral clustering requires the time-consuming decomposition of the Laplacian matrix of the similarity graph, thus limiting its applicability to large datasets. To improve the efficiency of spectral clustering, a top-down approach was recently proposed, which first divides the data into several micro-clusters (granular-balls), then splits these micro-clusters when they are not ``compact'', and finally uses these micro-clusters as nodes to construct a similarity graph for more efficient spectral clustering. However, this top-down approach is challenging to adapt to unevenly distributed or structurally complex data. This is because constructing micro-clusters as a rough ball struggles to capture the shape and structure of data in a local range, and the simplistic splitting rule that solely targets ``compactness'' is susceptible to noise and variations in data density and leads to micro-clusters with varying shapes, making it challenging to accurately measure the similarity between them. To resolve these issues and improve spectral clustering, this paper first proposes to start from local structures to obtain micro-clusters, such that the complex structural information inside local neighborhoods is well captured by them. Moreover, by noting that Euclidean distance is more suitable for convex sets, this paper further proposes a data splitting rule that couples local density and data manifold structures, so that the similarities of the obtained micro-clusters can be easily characterized. A novel similarity measure between micro-clusters is then proposed for the final spectral clustering. A series of experiments based on synthetic and real-world datasets demonstrate that the proposed method has better adaptability to structurally complex data than granular-ball based methods.
- Abstract(参考訳): スペクトルクラスタリングでは、類似性グラフのラプラシア行列の分解に時間を要するため、大きなデータセットへの適用性が制限される。
スペクトルクラスタリングの効率を改善するために、最近トップダウンアプローチが提案され、まずデータを複数のマイクロクラスタ(グラニュラーボール)に分割し、次にこれらのマイクロクラスタを `compact'' でないときに分割し、最終的にこれらのマイクロクラスタをノードとして使用して、より効率的なスペクトルクラスタリングのための類似性グラフを構築する。
しかし、このトップダウンアプローチは、不均一に分散された、あるいは構造的に複雑なデータに適応することが難しい。
これは、粗い球としてマイクロクラスタを構築することは、局所的な範囲におけるデータの形状や構造を捉えるのに苦労しているためであり、「コンパクト性」のみを対象とする単純な分割規則は、データ密度のノイズや変動に敏感であり、異なる形状のマイクロクラスタを導き出すため、それらの類似性を正確に測定することは困難である。
これらの問題を解消し、スペクトルクラスタリングを改善するために、まず、局所構造からマイクロクラスタを得るよう提案する。
さらに, ユークリッド距離が凸集合に適していることを示すことにより, 局所密度とデータ多様体構造を結合するデータ分割規則を提案し, 得られたマイクロクラスタの類似性を容易に評価する。
その後、最終的なスペクトルクラスタリングのために、マイクロクラスタ間の新しい類似度尺度が提案される。
合成および実世界のデータセットに基づく一連の実験により、提案手法はグラニュラーボール法よりも構造的に複雑なデータに適応可能であることが示された。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - TANGO: Clustering with Typicality-Aware Nonlocal Mode-Seeking and Graph-Cut Optimization [2.4783546111391215]
モード探索による密度に基づくクラスタリング手法は通常,局所密度推定を用いて構造情報のマイニングによってクラスタリングを実現する。
本稿では,グローバルな視点の特異性を利用して局所的依存関係を確立するアルゴリズム(TANGO)を提案する。
サブクラスタにグラフカットを使用することで、最終的なクラスタリングを実現しているため、クラスタセンターの選択が困難なことを回避することができる。
論文 参考訳(メタデータ) (2024-08-19T15:26:25Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Kernel Biclustering algorithm in Hilbert Spaces [8.303238963864885]
我々は,エネルギー距離と平均誤差の最大値という概念を用いて,抽象空間における新しいモデルフリー・ビクラスタリングアルゴリズムを開発した。
提案手法は,既存の文献よりも一般的で複雑なクラスタ形状を学習することができる。
提案手法は,カーネルの適切な選択を前提として,その最適シナリオにおける最先端手法と類似している。
論文 参考訳(メタデータ) (2022-08-07T08:41:46Z) - flow-based clustering and spectral clustering: a comparison [0.688204255655161]
本研究では,本質的なネットワーク構造を持つデータに対する新しいグラフクラスタリング手法を提案する。
我々は、ユークリッド特徴ベクトルを構築するために、データ固有のネットワーク構造を利用する。
以上の結果から,クラスタリング手法が特定のグラフ構造に対処できることが示唆された。
論文 参考訳(メタデータ) (2022-06-20T21:49:52Z) - Perfect Spectral Clustering with Discrete Covariates [68.8204255655161]
本稿では,大規模なスパースネットワークのクラスにおいて,高い確率で完全クラスタリングを実現するスペクトルアルゴリズムを提案する。
本手法は,スペクトルクラスタリングによる一貫した潜在構造回復を保証する最初の方法である。
論文 参考訳(メタデータ) (2022-05-17T01:41:06Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - Tensor Laplacian Regularized Low-Rank Representation for Non-uniformly
Distributed Data Subspace Clustering [2.578242050187029]
低ランク表現(LRR)は、サブスペースクラスタリングにおけるデータポイントの局所性情報を破棄する。
本稿では,隣接ノードの変動数を容易にし,データの局所性情報を組み込むハイパーグラフモデルを提案する。
人工および実データを用いた実験により,提案手法の精度と精度が向上した。
論文 参考訳(メタデータ) (2021-03-06T08:22:24Z) - Clustering small datasets in high-dimension by random projection [2.2940141855172027]
統計的に重要なクラスタリング構造を小さなデータセットで見つけるための低計算手法を提案する。
この手法は、ランダムな線上にデータを投影し、その結果の1次元データにバイナリクラスタリングを求める。
得られたクラスタリング構造の統計的妥当性を投影された一次元空間で検証する。
論文 参考訳(メタデータ) (2020-08-21T16:49:37Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。