論文の概要: Measuring the Validity of Clustering Validation Datasets
- arxiv url: http://arxiv.org/abs/2503.01097v1
- Date: Mon, 03 Mar 2025 01:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:46.447425
- Title: Measuring the Validity of Clustering Validation Datasets
- Title(参考訳): クラスタリング検証データセットの妥当性の測定
- Authors: Hyeon Jeon, Michaël Aupetit, DongHwa Shin, Aeri Cho, Seokhyeon Park, Jinwook Seo,
- Abstract要約: 内部検証尺度(IVM)は、クラスタラベルマッチング(CLM)を、同じデータセットの異なるラベルと比較することができるが、異なるデータセット間で行うように設計されていない。
我々は、データセット間でCLMを評価し比較するための高速で信頼性の高い手法として、Adjusted IVMを紹介した。
調整済みのIVMは、標準のIVMを含む競合より優れており、データセット内およびデータセット間のCLMを正確に評価している。
- 参考スコア(独自算出の注目度): 9.451764507106027
- License:
- Abstract: Clustering techniques are often validated using benchmark datasets where class labels are used as ground-truth clusters. However, depending on the datasets, class labels may not align with the actual data clusters, and such misalignment hampers accurate validation. Therefore, it is essential to evaluate and compare datasets regarding their cluster-label matching (CLM), i.e., how well their class labels match actual clusters. Internal validation measures (IVMs), like Silhouette, can compare CLM over different labeling of the same dataset, but are not designed to do so across different datasets. We thus introduce Adjusted IVMs as fast and reliable methods to evaluate and compare CLM across datasets. We establish four axioms that require validation measures to be independent of data properties not related to cluster structure (e.g., dimensionality, dataset size). Then, we develop standardized protocols to convert any IVM to satisfy these axioms, and use these protocols to adjust six widely used IVMs. Quantitative experiments (1) verify the necessity and effectiveness of our protocols and (2) show that adjusted IVMs outperform the competitors, including standard IVMs, in accurately evaluating CLM both within and across datasets. We also show that the datasets can be filtered or improved using our method to form more reliable benchmarks for clustering validation.
- Abstract(参考訳): クラスタリング技術は、クラスラベルを基幹クラスタとして使用するベンチマークデータセットを使用して検証されることが多い。
しかし、データセットによっては、クラスラベルは実際のデータクラスタと一致しない可能性がある。
そのため、クラスタラベルマッチング(CLM)に関するデータセットの評価と比較が不可欠である。
Silhouetteのような内部バリデーション(IVM)は、同じデータセットの異なるラベルよりもCLMを比較することができるが、異なるデータセットにまたがるように設計されていない。
そこで我々は、データセット間でCLMを評価し比較するための高速で信頼性の高い手法として、Adjusted IVMを紹介した。
クラスタ構造とは無関係なデータ特性(例えば,次元性,データセットサイズ)に依存しない検証措置を必要とする4つの公理を確立する。
そして、これらの公理を満たすため、任意のIVMを変換するための標準化されたプロトコルを開発し、これらのプロトコルを使用して6つの広く使用されているIVMを調整する。
定量的実験(1) プロトコルの必要性と有効性を検証するとともに,(2) 調整済みのIVMが,標準のIVMを含む競合製品よりも優れていることを示す。
また、クラスタリング検証のための信頼性の高いベンチマークを作成するために、我々の手法を用いてデータセットをフィルタリングまたは改善できることを示す。
関連論文リスト
- Text Clustering as Classification with LLMs [6.030435811868953]
本研究では,大規模言語モデル(LLM)の文脈内学習能力を効果的に活用する,テキストクラスタリングのための新しいフレームワークを提案する。
そこで本研究では,テキストクラスタリングをLLMによる分類タスクに変換することを提案する。
我々のフレームワークは、最先端のクラスタリング手法に匹敵する、あるいは優れた性能を達成できることが実験的に証明されている。
論文 参考訳(メタデータ) (2024-09-30T16:57:34Z) - Can an unsupervised clustering algorithm reproduce a categorization system? [1.0485739694839669]
ラベル付きデータセットにおいて、教師なしクラスタリングが真理クラスを再現できるかどうかを検討する。
成功は特徴選択と選択した距離測定に依存することを示す。
論文 参考訳(メタデータ) (2024-08-19T18:27:14Z) - DREW : Towards Robust Data Provenance by Leveraging Error-Controlled Watermarking [58.37644304554906]
誤り訂正符号と透かしを用いたデータ検索法(DREW)を提案する。
DREWはランダムに参照データセットをクラスタ化し、各クラスタに独自のエラー制御された透かしキーを注入する。
関連するクラスタを特定した後、最も正確な一致を見つけるために、クラスタ内に埋め込みベクトル類似性検索を行う。
論文 参考訳(メタデータ) (2024-06-05T01:19:44Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Twin Contrastive Learning for Online Clustering [15.9794051341163]
本稿では、インスタンスとクラスタレベルで双対学習(TCL)を行うことにより、オンラインクラスタリングを実現することを提案する。
対象のクラスタ番号の次元を持つ特徴空間にデータを投影すると、その特徴行列の行と列がインスタンスとクラスタ表現に対応していることがわかった。
論文 参考訳(メタデータ) (2022-10-21T02:12:48Z) - Sanity Check for External Clustering Validation Benchmarks using
Internal Validation Measures [8.808021343665319]
ラベル付きデータセットに基づくクラスタリング手法のベンチマークにおける信頼性の欠如に対処する。
本稿では,データセット間でのCLMの比較を可能にする,データセット間の内部測度を生成するための原則的手法を提案する。
論文 参考訳(メタデータ) (2022-09-20T23:32:18Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Contrastive Clustering [57.71729650297379]
本稿では,インスタンスレベルのコントラスト学習を明示的に行うContrastive Clustering (CC)を提案する。
特にCCは、CIFAR-10(CIFAR-100)データセット上で0.705(0.431)のNMIを達成しており、最高のベースラインと比較して最大19%(39%)のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-09-21T08:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。