論文の概要: Sanity Check for External Clustering Validation Benchmarks using
Internal Validation Measures
- arxiv url: http://arxiv.org/abs/2209.10042v1
- Date: Tue, 20 Sep 2022 23:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:55:05.080060
- Title: Sanity Check for External Clustering Validation Benchmarks using
Internal Validation Measures
- Title(参考訳): 内部検証手法を用いた外部クラスタリング検証ベンチマークの正当性チェック
- Authors: Hyeon Jeon, Michael Aupetit, DongHwa Shin, Aeri Cho, Seokhyeon Park,
Jinwook Seo
- Abstract要約: ラベル付きデータセットに基づくクラスタリング手法のベンチマークにおける信頼性の欠如に対処する。
本稿では,データセット間でのCLMの比較を可能にする,データセット間の内部測度を生成するための原則的手法を提案する。
- 参考スコア(独自算出の注目度): 8.808021343665319
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We address the lack of reliability in benchmarking clustering techniques
based on labeled datasets. A standard scheme in external clustering validation
is to use class labels as ground truth clusters, based on the assumption that
each class forms a single, clearly separated cluster. However, as such
cluster-label matching (CLM) assumption often breaks, the lack of conducting a
sanity check for the CLM of benchmark datasets casts doubt on the validity of
external validations. Still, evaluating the degree of CLM is challenging. For
example, internal clustering validation measures can be used to quantify CLM
within the same dataset to evaluate its different clusterings but are not
designed to compare clusterings of different datasets. In this work, we propose
a principled way to generate between-dataset internal measures that enable the
comparison of CLM across datasets. We first determine four axioms for
between-dataset internal measures, complementing Ackerman and Ben-David's
within-dataset axioms. We then propose processes to generalize internal
measures to fulfill these new axioms, and use them to extend the widely used
Calinski-Harabasz index for between-dataset CLM evaluation. Through
quantitative experiments, we (1) verify the validity and necessity of the
generalization processes and (2) show that the proposed between-dataset
Calinski-Harabasz index accurately evaluates CLM across datasets. Finally, we
demonstrate the importance of evaluating CLM of benchmark datasets before
conducting external validation.
- Abstract(参考訳): ラベル付きデータセットに基づくベンチマーククラスタリング技術における信頼性の欠如に対処する。
外部クラスタリング検証の標準的なスキームは、各クラスが単一の明確に分離されたクラスタを形成するという仮定に基づいて、クラスラベルを基底真理クラスタとして使用することである。
しかし、このようなクラスタラベルマッチング(CLM)の仮定がしばしば破られるため、ベンチマークデータセットのCLMに対する健全性チェックの実施の欠如は、外部検証の有効性に疑問を投げかけている。
それでも、CLMの程度を評価することは難しい。
例えば、内部クラスタリング検証尺度は、同じデータセット内のclmを定量化し、異なるクラスタリングを評価するために使用できるが、異なるデータセットのクラスタリングを比較するように設計されていない。
本研究では,データセット間でのCLMの比較を可能にする,データセット間の内部測度を生成する方法を提案する。
まず,アッカーマンとベンダビッドのデータセット内公理を補完する,データセット間内測度のための4つの公理を決定する。
次に、これらの新しい公理を満たすための内部測度を一般化し、データセット間clm評価のために広く使用されるcalinski-harabaszインデックスを拡張するプロセスを提案する。
定量的実験により,(1)一般化プロセスの有効性と必要性を検証し,(2)データセット間でのCalinski-Harabasz指数がCLMを精度良く評価することを示した。
最後に,外部検証を行う前にベンチマークデータセットのclmを評価することの重要性を示す。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - From A-to-Z Review of Clustering Validation Indices [4.08908337437878]
我々は、最も一般的なクラスタリングアルゴリズムを用いて、内部および外部クラスタリング検証指標の性能をレビューし、評価する。
内部クラスタリング検証と外部クラスタリング検証の両方の機能を調べるための分類フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T13:52:02Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Clustering Validation with The Area Under Precision-Recall Curves [0.0]
クラスタリングバリデーションインデックス(CVI)は、実際のアプリケーションシナリオにおけるクラスタリングバリデーションを可能にする。
我々はこれらがCVIとして適切であるだけでなく、クラスタ不均衡の存在においても好ましいことを示します。
提案したCVIと最先端のCVIを、実データおよびシミュレーションデータセット上で総合的に評価する。
論文 参考訳(メタデータ) (2023-04-04T01:49:57Z) - CEREAL: Few-Sample Clustering Evaluation [4.569028973407756]
限られたラベルでクラスタリング品質を推定する未解決の問題に焦点をあてる。
本稿では,少数のクラスタリング評価のための総合的なフレームワークCEREALを紹介する。
その結果,CEREALはサンプリング基準値と比較して絶対誤差曲線下での面積を最大57%削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T19:52:41Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Contrastive Clustering [57.71729650297379]
本稿では,インスタンスレベルのコントラスト学習を明示的に行うContrastive Clustering (CC)を提案する。
特にCCは、CIFAR-10(CIFAR-100)データセット上で0.705(0.431)のNMIを達成しており、最高のベースラインと比較して最大19%(39%)のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-09-21T08:54:40Z) - reval: a Python package to determine best clustering solutions with
stability-based relative clustering validation [1.8129328638036126]
revalは、安定性ベースの相対クラスタリングバリデーションメソッドを活用して、最適なクラスタリングソリューションを決定するPythonパッケージである。
この研究は、教師付き学習を通じて、目に見えないデータのサブセットを複製するものとして、最高のクラスタリングソリューションを選択する安定性ベースの方法の開発を目的としている。
論文 参考訳(メタデータ) (2020-08-27T10:36:56Z) - Evaluating and Validating Cluster Results [0.0]
本稿では、IRISデータセットのクラスタ結果に対して、外部評価と内部評価の両方を行う。
内部性能測定には、Silhouette IndexとSum of Square Errorsが使用される。
最後に、統計的ツールとして、クラスタリング結果と元のデータ内の観測結果の分布の視覚的表現を周波数分布法を用いて比較、提供する。
論文 参考訳(メタデータ) (2020-07-15T23:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。