論文の概要: Benchmarking of Clustering Validity Measures Revisited
- arxiv url: http://arxiv.org/abs/2511.05983v1
- Date: Sat, 08 Nov 2025 12:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.695478
- Title: Benchmarking of Clustering Validity Measures Revisited
- Title(参考訳): クラスタリングの妥当性基準の見直し
- Authors: Connor Simpson, Ricardo J. G. B. Campello, Elizabeth Stojanovski,
- Abstract要約: 内部妥当性指数はクラスタリングプロセスにおいて重要な役割を果たす。
本研究は,26の内的妥当性指標に関するベンチマーク研究である。
16177データセットの新たなコレクションが作成され、8つの広く使用されているクラスタリングアルゴリズムと組み合わせられた。
- 参考スコア(独自算出の注目度): 0.8207472974850437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Validation plays a crucial role in the clustering process. Many different internal validity indexes exist for the purpose of determining the best clustering solution(s) from a given collection of candidates, e.g., as produced by different algorithms or different algorithm hyper-parameters. In this study, we present a comprehensive benchmark study of 26 internal validity indexes, which includes highly popular classic indexes as well as more recently developed ones. We adopted an enhanced revision of the methodology presented in Vendramin et al. (2010), developed here to address several shortcomings of this previous work. This overall new approach consists of three complementary custom-tailored evaluation sub-methodologies, each of which has been designed to assess specific aspects of an index's behaviour while preventing potential biases of the other sub-methodologies. Each sub-methodology features two complementary measures of performance, alongside mechanisms that allow for an in-depth investigation of more complex behaviours of the internal validity indexes under study. Additionally, a new collection of 16177 datasets has been produced, paired with eight widely-used clustering algorithms, for a wider applicability scope and representation of more diverse clustering scenarios.
- Abstract(参考訳): 検証はクラスタリングプロセスにおいて重要な役割を果たす。
異なるアルゴリズムまたは異なるアルゴリズムのハイパーパラメータによって生成される候補の集合、例えば、ある候補の集合から最適なクラスタリングソリューションを決定するために、多くの異なる内部妥当性指数が存在する。
本研究では,26の内的妥当性指標を総合的に評価し,その内的妥当性指標について検討した。
我々は、Vendramin et al(2010)で提示された方法論の強化された改訂を採用し、この前の研究のいくつかの欠点に対処した。
この全体的な新しいアプローチは、3つの補完的なカスタマイズされた評価サブメソッドから成り、それぞれが、他のサブメソッドの潜在的なバイアスを防止しつつ、インデックスの振る舞いの特定の側面を評価するように設計されている。
それぞれのサブメソドロジーは2つの相補的な性能測定を特徴とし、また、研究中の内部妥当性指標のより複雑な振る舞いを詳細に調査する機構も備えている。
さらに、より広い適用範囲とより多様なクラスタリングシナリオの表現のために、8つの広く使用されているクラスタリングアルゴリズムと組み合わせて、16177データセットの新たなコレクションが作成されている。
関連論文リスト
- From A-to-Z Review of Clustering Validation Indices [4.08908337437878]
我々は、最も一般的なクラスタリングアルゴリズムを用いて、内部および外部クラスタリング検証指標の性能をレビューし、評価する。
内部クラスタリング検証と外部クラスタリング検証の両方の機能を調べるための分類フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T13:52:02Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - A new approach for evaluating internal cluster validation indices [0.0]
クラスタ検証は、最高の性能のアルゴリズムを選択するために必要である。
追加情報(外部情報)を使わずに、この目的のためにいくつかの指標が提案された。
評価手法は, 地中・地中・地中・地中・地中・地中・地中・地中・地中・地中・地中・地中・地中・地中・地中・地中・地中・地中・地中・
論文 参考訳(メタデータ) (2023-08-02T06:55:33Z) - Semi-Supervised Constrained Clustering: An In-Depth Overview, Ranked
Taxonomy and Future Research Directions [2.5957372084704238]
制約クラスタリングの研究領域は、長年にわたって大きく成長してきた。
利用可能なさまざまなメソッド、制約、ベンチマークを簡単に理解するために、統一された概要は提供されていない。
本研究では,制約クラスタリングの背景を詳細に分析し,制約クラスタリングに使用できる制約の種類を分類する。
論文 参考訳(メタデータ) (2023-02-28T17:46:31Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Multivariate feature ranking of gene expression data [62.997667081978825]
ペアワイズ相関とペアワイズ整合性に基づく2つの新しい多変量特徴ランキング手法を提案する。
提案手法は, クラスタリング変動, チ・スクエアド, 相関, 情報ゲイン, ReliefF および Significance の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-03T17:19:53Z) - A Comparative Evaluation of Quantification Methods [2.802657211770274]
量子化は、目に見えないデータに基づいてクラスラベルの分布を推定する問題を表す。
本研究では,40以上のデータセットに対する24の異なる手法を比較し,バイナリとマルチクラス定量化設定を考慮して検討する。
一般に全ての競合より優れているアルゴリズムは存在しないが、しきい値選択に基づくMedian SweepやTSMaxメソッドを含む一連の手法を識別する。
マルチクラス設定では,HDx法,一般化確率調整数,reme法,エネルギ距離最小化法,EMなど,異なるアルゴリズム群が優れた性能を発揮することを観察する。
論文 参考訳(メタデータ) (2021-03-04T18:51:06Z) - HAWKS: Evolving Challenging Benchmark Sets for Cluster Analysis [2.5329716878122404]
クラスタリングアルゴリズムの包括的なベンチマークは難しい。
厳格なベンチマークのベストプラクティスに関する合意はありません。
このようなベンチマークのフレキシブルな生成を支援するために,進化的アルゴリズムが果たす重要な役割を実証する。
論文 参考訳(メタデータ) (2021-02-13T15:01:34Z) - Unsupervised Multi-view Clustering by Squeezing Hybrid Knowledge from
Cross View and Each View [68.88732535086338]
本稿では,適応グラフ正規化に基づくマルチビュークラスタリング手法を提案する。
5つの多視点ベンチマークの実験結果から,提案手法が他の最先端手法をクリアマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-08-23T08:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。