論文の概要: CLUBench: A Clustering Benchmark
- arxiv url: http://arxiv.org/abs/2605.29933v1
- Date: Thu, 28 May 2026 13:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.362092
- Title: CLUBench: A Clustering Benchmark
- Title(参考訳): CLUBench: クラスタリングベンチマーク
- Authors: Feng Xiao, Dazhi Fu, Chris Ding, Jicong Fan,
- Abstract要約: CLUBenchは、131データセットで評価されたさまざまな原則の24のアルゴリズムからなる包括的なクラスタリングベンチマークである。
評価されたディープクラスタリング手法は, 従来のクラスタリングアルゴリズムと比較して, 有意な優位性は示さない。
画像とテキストのクラスタリングタスクでは、事前訓練された埋め込みと従来のクラスタリングアルゴリズムを組み合わせることで、効率的かつ効率的なクラスタリングが可能になる。
- 参考スコア(独自算出の注目度): 27.936329103362187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering is a fundamental problem in data science with a long-standing research history, yielding numerous insightful algorithms. Despite this progress, a systematic and large-scale empirical evaluation that jointly considers conventional algorithms, deep learning-based methods, and recent foundation model-based clustering remains largely absent, leading to limited guidance on algorithm selection and deployment. To address this gap, we introduce CLUBench, a comprehensive clustering benchmark comprising 24 algorithms of diverse principles evaluated on 131 datasets across tabular, text, and image data, involving 178,815 experiments. Importantly, our analyses of (i) the impact of hyperparameter tuning,(ii) the impact of data types and characteristics,(iii) the impact of pretrained embeddings,(iv) large language model-based clustering,(v) the similarity of algorithms, and (vi) the low-rank structures of performance matrices, yield meaningful insights and promising pathways for clustering research. For instance, our study reveals that: 1) All evaluated deep clustering methods do not exhibit a significant advantage compared with the top-performing conventional clustering algorithms (e.g., KMeans, SpeClu) in terms of average performance; 2) For image and text clustering tasks, combining pretrained embeddings with conventional clustering algorithms (e.g., KMeans, SpeClu) offers effective and efficient clustering; 3) Clustering remains a challenging and nontrivial problem, even in the era of increasingly dominant foundation models. Moreover, we propose to use the low-rank structure in cross-model performance matrices to efficiently approximate the overall performance evaluation in practical applications. We further demonstrate the feasibility of model selection based on the performance matrices across all hyperparameter configurations.
- Abstract(参考訳): クラスタリングは、長年の研究の歴史を持つデータサイエンスの基本的な問題であり、多くの洞察に富んだアルゴリズムを生み出している。
この進歩にもかかわらず、従来のアルゴリズム、ディープラーニングに基づく手法、そして最近の基盤モデルに基づくクラスタリングを共同で検討する体系的かつ大規模な経験的評価は、アルゴリズムの選択と展開に関する限られたガイダンスに繋がる。
このギャップに対処するため、CLUBenchは、表、テキスト、画像データにわたる131データセットで評価された24のアルゴリズムからなる包括的なクラスタリングベンチマークであり、178,815の実験を含む。
重要なことは、我々の分析です。
(i)ハイパーパラメータチューニングの影響。
(ii)データ型と特徴の影響
三 予め訓練した埋込みの影響
(iv)大規模言語モデルベースのクラスタリング。
(v)アルゴリズムの類似性、及び
(vi)性能行列の低ランク構造は,クラスタリング研究に有意義な洞察と有望な経路をもたらす。
例えば、我々の研究は次のように明らかにしています。
1) 評価されたディープクラスタリング手法は, 平均性能において, 従来のクラスタリングアルゴリズム(例えば, KMeans, SpeClu)に比べ, 有意な優位性を示すものではない。
2)画像とテキストのクラスタリングタスクでは,事前学習した埋め込みと従来のクラスタリングアルゴリズム(例えば,KMeans,SpeClu)を組み合わせることで,効率的かつ効率的なクラスタリングを実現している。
3) クラスタ化は、ますます支配的な基盤モデルの時代でさえ、困難な問題であり、非自明な問題です。
さらに、クロスモデル性能行列における低ランク構造を用いて、実用アプリケーションにおける全体的な性能評価を効率的に近似することを提案する。
さらに、全てのハイパーパラメータ構成における性能行列に基づくモデル選択の実現可能性を示す。
関連論文リスト
- Unsupervised Learning: Comparative Analysis of Clustering Techniques on High-Dimensional Data [0.29465623430708915]
本稿では,高次元データセット上でのK平均,DBSCAN,スペクトルクラスタリングを包括的に解析する。
本稿では,複数次元削減技術を用いたクラスタリング性能の評価を行う新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T20:38:04Z) - AdaptiveMDL-GenClust: A Robust Clustering Framework Integrating Normalized Mutual Information and Evolutionary Algorithms [0.0]
我々は,最小記述長(MDL)原理と遺伝的最適化アルゴリズムを組み合わせたロバストクラスタリングフレームワークを提案する。
このフレームワークは、初期クラスタリングソリューションを生成するためのアンサンブルクラスタリングアプローチから始まり、MDL誘導評価関数を使用して洗練され、遺伝的アルゴリズムによって最適化される。
実験の結果,従来のクラスタリング手法を一貫して上回り,精度の向上,安定性の向上,バイアス低減を実現している。
論文 参考訳(メタデータ) (2024-11-26T20:26:14Z) - A3S: A General Active Clustering Method with Pairwise Constraints [66.74627463101837]
A3Sは、適応クラスタリングアルゴリズムによって得られる初期クラスタ結果に対して、戦略的にアクティブクラスタリングを調整する。
さまざまな実世界のデータセットにわたる広範な実験において、A3Sは、人間のクエリを著しく少なくして、望ましい結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T13:37:03Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Learning the Precise Feature for Cluster Assignment [39.320210567860485]
表現学習とクラスタリングを1つのパイプラインに初めて統合するフレームワークを提案する。
提案フレームワークは,近年開発された生成モデルを用いて,本質的な特徴を学習する能力を活用している。
実験の結果,提案手法の性能は,最先端の手法よりも優れているか,少なくとも同等であることがわかった。
論文 参考訳(メタデータ) (2021-06-11T04:08:54Z) - HAWKS: Evolving Challenging Benchmark Sets for Cluster Analysis [2.5329716878122404]
クラスタリングアルゴリズムの包括的なベンチマークは難しい。
厳格なベンチマークのベストプラクティスに関する合意はありません。
このようなベンチマークのフレキシブルな生成を支援するために,進化的アルゴリズムが果たす重要な役割を実証する。
論文 参考訳(メタデータ) (2021-02-13T15:01:34Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Unsupervised Multi-view Clustering by Squeezing Hybrid Knowledge from
Cross View and Each View [68.88732535086338]
本稿では,適応グラフ正規化に基づくマルチビュークラスタリング手法を提案する。
5つの多視点ベンチマークの実験結果から,提案手法が他の最先端手法をクリアマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-08-23T08:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。