論文の概要: CoHiRF: A Scalable and Interpretable Clustering Framework for High-Dimensional Data
- arxiv url: http://arxiv.org/abs/2502.00380v1
- Date: Sat, 01 Feb 2025 09:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:04:10.580831
- Title: CoHiRF: A Scalable and Interpretable Clustering Framework for High-Dimensional Data
- Title(参考訳): CoHiRF: 高次元データのためのスケーラブルで解釈可能なクラスタリングフレームワーク
- Authors: Bruno Belucci, Karim Lounici, Katia Meziani,
- Abstract要約: 課題を効果的に解決する新しいクラスタリング手法であるCoHiRF(Consensus Hierarchical Random Feature)を提案する。
CoHiRFは、ランダムな特徴選択を利用してノイズと次元効果を緩和し、縮小された特徴空間にK平均クラスタリングを繰り返し適用し、全一致のコンセンサス基準で結果を組み合わせる。
CoHiRFはK-Meansに匹敵する実行時間で計算効率が高く、大規模データセットにスケーラブルで、SC-SRGF、HDBSCAN、OPTICSといった最先端の手法に対して堅牢な性能を示す。
- 参考スコア(独自算出の注目度): 0.30723404270319693
- License:
- Abstract: Clustering high-dimensional data poses significant challenges due to the curse of dimensionality, scalability issues, and the presence of noisy and irrelevant features. We propose Consensus Hierarchical Random Feature (CoHiRF), a novel clustering method designed to address these challenges effectively. CoHiRF leverages random feature selection to mitigate noise and dimensionality effects, repeatedly applies K-Means clustering in reduced feature spaces, and combines results through a unanimous consensus criterion. This iterative approach constructs a cluster assignment matrix, where each row records the cluster assignments of a sample across repetitions, enabling the identification of stable clusters by comparing identical rows. Clusters are organized hierarchically, enabling the interpretation of the hierarchy to gain insights into the dataset. CoHiRF is computationally efficient with a running time comparable to K-Means, scalable to massive datasets, and exhibits robust performance against state-of-the-art methods such as SC-SRGF, HDBSCAN, and OPTICS. Experimental results on synthetic and real-world datasets confirm the method's ability to reveal meaningful patterns while maintaining scalability, making it a powerful tool for high-dimensional data analysis.
- Abstract(参考訳): 高次元データのクラスタリングは、次元性の呪いやスケーラビリティの問題、ノイズや無関係な機能の存在など、大きな課題を生んでいる。
本稿では,これらの課題を効果的に解決する新しいクラスタリング手法であるCoHiRFを提案する。
CoHiRFは、ランダムな特徴選択を利用してノイズと次元効果を緩和し、縮小された特徴空間にK平均クラスタリングを繰り返し適用し、全一致のコンセンサス基準で結果を組み合わせる。
この反復的アプローチはクラスタ割り当て行列を構築し、各行は繰り返しにわたってサンプルのクラスタ割り当てを記録し、同一行を比較して安定したクラスタの識別を可能にする。
クラスタは階層的に整理され、階層の解釈によってデータセットに関する洞察を得ることができる。
CoHiRFはK-Meansに匹敵する実行時間で計算効率が高く、大規模データセットにスケーラブルで、SC-SRGF、HDBSCAN、OPTICSといった最先端の手法に対して堅牢な性能を示す。
合成および実世界のデータセットの実験結果は、スケーラビリティを維持しながら有意義なパターンを明らかにする方法の能力を確認し、高次元データ解析の強力なツールとなる。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Hierarchical Sparse Representation Clustering for High-Dimensional Data Streams [16.228652652243888]
本稿では,高次元データストリームをクラスタリングするための階層的スパース表現クラスタリング法を提案する。
いくつかのベンチマークデータセットで得られた実験結果は、HSRCの有効性とロバスト性を示している。
論文 参考訳(メタデータ) (2024-09-07T03:40:55Z) - Adaptive Self-supervised Robust Clustering for Unstructured Data with Unknown Cluster Number [12.926206811876174]
適応型自己教師型ロバストクラスタリング(Adaptive Self-supervised Robust Clustering, ASRC)と呼ばれる非構造化データに適した,新たな自己教師型ディープクラスタリング手法を提案する。
ASRCはグラフ構造とエッジ重みを適応的に学習し、局所構造情報と大域構造情報の両方をキャプチャする。
ASRCは、クラスタ数の事前知識に依存するメソッドよりも優れており、非構造化データのクラスタリングの課題に対処する上での有効性を強調している。
論文 参考訳(メタデータ) (2024-07-29T15:51:09Z) - Interpretable Clustering with the Distinguishability Criterion [0.4419843514606336]
本稿では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,分散可能性基準と呼ばれるグローバルな基準を提案する。
本稿では、分散可能性基準と多くの一般的なクラスタリング手順を統合した損失関数に基づく計算フレームワークを提案する。
シミュレーション研究および実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T16:38:15Z) - Deep Embedding Clustering Driven by Sample Stability [16.53706617383543]
サンプル安定性(DECS)により駆動されるディープ埋め込みクラスタリングアルゴリズムを提案する。
具体的には、まずオートエンコーダで初期特徴空間を構築し、次にサンプル安定性に制約されたクラスタ指向の埋め込み機能を学ぶ。
5つのデータセットに対する実験結果から,提案手法は最先端のクラスタリング手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-01-29T09:19:49Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Enhancing cluster analysis via topological manifold learning [0.3823356975862006]
クラスタ化前にデータセットのトポロジ構造を推定することで,クラスタ検出を大幅に向上させることができることを示す。
位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。
論文 参考訳(メタデータ) (2022-07-01T15:53:39Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Stable and consistent density-based clustering via multiparameter
persistence [77.34726150561087]
トポロジカルデータ解析による次数-リップス構成について考察する。
我々は,入力データの摂動に対する安定性を,通信間距離を用いて解析する。
私たちはこれらのメソッドを、Persistableと呼ばれる密度ベースのクラスタリングのためのパイプラインに統合します。
論文 参考訳(メタデータ) (2020-05-18T19:45:04Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。