論文の概要: Scalable Co-Clustering for Large-Scale Data through Dynamic Partitioning and Hierarchical Merging
- arxiv url: http://arxiv.org/abs/2410.18113v1
- Date: Wed, 09 Oct 2024 04:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-27 05:11:50.523647
- Title: Scalable Co-Clustering for Large-Scale Data through Dynamic Partitioning and Hierarchical Merging
- Title(参考訳): 動的分割と階層的マージによる大規模データのスケーラブルコクラスタリング
- Authors: Zihan Wu, Zhaoke Huang, Hong Yan,
- Abstract要約: クラスタの行と列を同時にクラスタリングすることで、よりきめ細かいグループを明らかにします。
既存のクラスタリング手法はスケーラビリティが悪く、大規模なデータを扱うことができない。
本稿では,高次元大規模データセットにおける複雑なパターンを明らかにするために,新しい,スケーラブルなコクラスタリング手法を提案する。
- 参考スコア(独自算出の注目度): 7.106620444966807
- License:
- Abstract: Co-clustering simultaneously clusters rows and columns, revealing more fine-grained groups. However, existing co-clustering methods suffer from poor scalability and cannot handle large-scale data. This paper presents a novel and scalable co-clustering method designed to uncover intricate patterns in high-dimensional, large-scale datasets. Specifically, we first propose a large matrix partitioning algorithm that partitions a large matrix into smaller submatrices, enabling parallel co-clustering. This method employs a probabilistic model to optimize the configuration of submatrices, balancing the computational efficiency and depth of analysis. Additionally, we propose a hierarchical co-cluster merging algorithm that efficiently identifies and merges co-clusters from these submatrices, enhancing the robustness and reliability of the process. Extensive evaluations validate the effectiveness and efficiency of our method. Experimental results demonstrate a significant reduction in computation time, with an approximate 83% decrease for dense matrices and up to 30% for sparse matrices.
- Abstract(参考訳): クラスタの行と列を同時にクラスタリングすることで、よりきめ細かいグループを明らかにします。
しかし、既存のクラスタリング手法はスケーラビリティが悪く、大規模なデータを扱うことができない。
本稿では,高次元大規模データセットにおける複雑なパターンを明らかにするために,新しい,スケーラブルなコクラスタリング手法を提案する。
具体的には、まず、大きな行列をより小さなサブマトリクスに分割し、並列コクラスタリングを可能にする、大きな行列分割アルゴリズムを提案する。
この手法は,計算効率と解析深度をバランスさせて,サブマトリクスの構成を最適化する確率モデルを用いる。
さらに、これらのサブマトリクスからコクラスタを効率的に同定し、マージする階層的コクラスタマージアルゴリズムを提案し、プロセスの堅牢性と信頼性を高める。
本手法の有効性と有効性を評価する。
実験の結果,密度行列では約83%,スパース行列では最大30%の減少がみられた。
関連論文リスト
- An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Deep Double Self-Expressive Subspace Clustering [7.875193047472789]
二重自己表現型サブスペースクラスタリングアルゴリズムを提案する。
提案アルゴリズムは最先端手法よりも優れたクラスタリングを実現することができる。
論文 参考訳(メタデータ) (2023-06-20T15:10:35Z) - Late Fusion Multi-view Clustering via Global and Local Alignment
Maximization [61.89218392703043]
マルチビュークラスタリング(MVC)は、異なるビューからの補完情報を最適に統合し、クラスタリング性能を改善する。
既存のアプローチの多くは、クラスタリングに最適な類似性行列を学ぶために、複数の事前定義された類似性を直接融合する。
これらの問題に対処するために、アライメントを通してレイトフュージョンMVCを提案する。
論文 参考訳(メタデータ) (2022-08-02T01:49:31Z) - LSEC: Large-scale spectral ensemble clustering [8.545202841051582]
本稿では,効率と効率のバランスを良くするために,大規模スペクトルアンサンブルクラスタリング(LSEC)手法を提案する。
LSEC法は既存のアンサンブルクラスタリング法よりも計算複雑性が低い。
論文 参考訳(メタデータ) (2021-06-18T00:42:03Z) - Divide-and-conquer based Large-Scale Spectral Clustering [8.545202841051582]
そこで本研究では,分散・分散型大規模スペクトルクラスタリング手法を提案し,効率と効率のバランスを良くする。
提案手法は,既存の大規模スペクトルクラスタリングよりも計算量が少ない。
論文 参考訳(メタデータ) (2021-04-30T15:09:45Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Clustering Ensemble Meets Low-rank Tensor Approximation [50.21581880045667]
本稿では,複数のクラスタリングを組み合わせ,個々のクラスタリングよりも優れたパフォーマンスを実現するクラスタリングアンサンブルの問題について検討する。
本稿では,この問題をグローバルな視点から解くために,新しい低ランクテンソル近似法を提案する。
7つのベンチマークデータセットを用いた実験の結果,提案手法は12の最先端手法と比較して,クラスタリング性能のブレークスルーを達成した。
論文 参考訳(メタデータ) (2020-12-16T13:01:37Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Multi-View Spectral Clustering with High-Order Optimal Neighborhood
Laplacian Matrix [57.11971786407279]
マルチビュースペクトルクラスタリングは、データ間の固有のクラスタ構造を効果的に明らかにすることができる。
本稿では,高次最適近傍ラプラシア行列を学習するマルチビュースペクトルクラスタリングアルゴリズムを提案する。
提案アルゴリズムは, 1次ベースと高次ベースの両方の線形結合の近傍を探索し, 最適ラプラシア行列を生成する。
論文 参考訳(メタデータ) (2020-08-31T12:28:40Z) - Non-Exhaustive, Overlapping Co-Clustering: An Extended Analysis [32.15852903039789]
コクラスタリングの目標は、行のクラスタリングと2次元のデータ行列の列を同時に識別することである。
我々はNEO-CCアルゴリズムと呼ばれる効率的な反復アルゴリズムを開発した。
実験結果から,NEO-CCアルゴリズムは実世界のデータのコクラスタリング構造を効果的に捉えることができることがわかった。
論文 参考訳(メタデータ) (2020-04-24T04:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。