論文の概要: A High-Performance External Validity Index for Clustering with a Large Number of Clusters
- arxiv url: http://arxiv.org/abs/2409.14455v1
- Date: Sun, 22 Sep 2024 14:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 22:41:53.157527
- Title: A High-Performance External Validity Index for Clustering with a Large Number of Clusters
- Title(参考訳): クラスタ数の多いクラスタリングのための高性能外部妥当性指数
- Authors: Mohammad Yasin Karbasian, Ramin Javadi,
- Abstract要約: 本稿では,Stable Matching Based Pairing (SMBP)アルゴリズムを提案する。
多数のクラスタを持つ大規模データセットにおけるクラスタリング評価のための高性能な外部妥当性指標である。
これは、多数のクラスタを持つバランスのとれた、バランスの取れていない、大規模なデータセットに特に有効である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the Stable Matching Based Pairing (SMBP) algorithm, a high-performance external validity index for clustering evaluation in large-scale datasets with a large number of clusters. SMBP leverages the stable matching framework to pair clusters across different clustering methods, significantly reducing computational complexity to $O(N^2)$, compared to traditional Maximum Weighted Matching (MWM) with $O(N^3)$ complexity. Through comprehensive evaluations on real-world and synthetic datasets, SMBP demonstrates comparable accuracy to MWM and superior computational efficiency. It is particularly effective for balanced, unbalanced, and large-scale datasets with a large number of clusters, making it a scalable and practical solution for modern clustering tasks. Additionally, SMBP is easily implementable within machine learning frameworks like PyTorch and TensorFlow, offering a robust tool for big data applications. The algorithm is validated through extensive experiments, showcasing its potential as a powerful alternative to existing methods such as Maximum Match Measure (MMM) and Centroid Ratio (CR).
- Abstract(参考訳): 本稿では,多数のクラスタを持つ大規模データセットにおいて,クラスタリング評価のための高性能な外部妥当性指標であるSMBPアルゴリズムを提案する。
SMBPは、クラスタリング法をまたいだクラスタの安定マッチングフレームワークを活用し、計算複雑性を$O(N^2)$と、従来の最大重みマッチング(MWM)と$O(N^3)$とで大幅に削減する。
実世界のデータセットと合成データセットの総合的な評価を通じて、SMBPはMWMと同等の精度と優れた計算効率を示す。
これは特に、多数のクラスタを持つバランスのとれた、バランスのとれた、大規模なデータセットに対して有効であり、モダンなクラスタリングタスクのためのスケーラブルで実用的なソリューションである。
加えて、SMBPはPyTorchやTensorFlowといった機械学習フレームワークで簡単に実装でき、ビッグデータアプリケーションのための堅牢なツールを提供する。
このアルゴリズムは広範な実験を通じて検証され、最大マッチング測度 (MMM) や Centroid Ratio (CR) といった既存の手法の強力な代替手段としての可能性を示している。
関連論文リスト
- Strong bounds for large-scale Minimum Sum-of-Squares Clustering [0.9831489366502302]
Minimum Sum-of-Squares Clustering (MSSC)は、最も広く使われているクラスタリング手法の1つである。
MSSCは、データポイントとそれに対応するクラスタセントロイド間の合計2乗ユークリッド距離を最小化することを目的としている。
最適性ギャップによるMSSCソリューションの検証手法を提案する。
論文 参考訳(メタデータ) (2025-02-12T13:40:00Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [69.15976031704687]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。
IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Late Fusion Multi-view Clustering via Global and Local Alignment
Maximization [61.89218392703043]
マルチビュークラスタリング(MVC)は、異なるビューからの補完情報を最適に統合し、クラスタリング性能を改善する。
既存のアプローチの多くは、クラスタリングに最適な類似性行列を学ぶために、複数の事前定義された類似性を直接融合する。
これらの問題に対処するために、アライメントを通してレイトフュージョンMVCを提案する。
論文 参考訳(メタデータ) (2022-08-02T01:49:31Z) - A sampling-based approach for efficient clustering in large datasets [0.8952229340927184]
本稿では,多数のクラスタを持つ高次元データに対して,簡便かつ効率的なクラスタリング手法を提案する。
私たちのコントリビューションは、データポイントとクラスタの完全な比較を必要としないため、k-meansよりもはるかに効率的です。
論文 参考訳(メタデータ) (2021-12-29T19:15:20Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - LSEC: Large-scale spectral ensemble clustering [8.545202841051582]
本稿では,効率と効率のバランスを良くするために,大規模スペクトルアンサンブルクラスタリング(LSEC)手法を提案する。
LSEC法は既存のアンサンブルクラスタリング法よりも計算複雑性が低い。
論文 参考訳(メタデータ) (2021-06-18T00:42:03Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - A Centroid Auto-Fused Hierarchical Fuzzy c-Means Clustering [30.709797128259236]
CAF-HFCM(Centroid Auto-Fused Hierarchical Fuzzy c-means Method)
本稿では,Centroid Auto-Fused Hierarchical Fuzzy c-means法(CAF-HFCM)を提案する。
CAF-HFCM法はFCMの様々な変種に容易に拡張できる。
論文 参考訳(メタデータ) (2020-04-27T12:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。