論文の概要: The Area Under the ROC Curve as a Measure of Clustering Quality
- arxiv url: http://arxiv.org/abs/2009.02400v2
- Date: Wed, 22 Dec 2021 21:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 01:51:43.713068
- Title: The Area Under the ROC Curve as a Measure of Clustering Quality
- Title(参考訳): クラスタリング品質の指標としてのROC曲線下地域
- Authors: Pablo Andretta Jaskowiak, Ivan Gesteira Costa, Ricardo Jos\'e
Gabrielli Barreto Campello
- Abstract要約: Area Under the Curve for Clustering (AUCC) はクラスタリングの品質の内/相対的な尺度である。
AUCC はベーカー・アンド・ヒューバート (1975) によるガンマ基準の線型変換である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Area Under the the Receiver Operating Characteristics (ROC) Curve,
referred to as AUC, is a well-known performance measure in the supervised
learning domain. Due to its compelling features, it has been employed in a
number of studies to evaluate and compare the performance of different
classifiers. In this work, we explore AUC as a performance measure in the
unsupervised learning domain, more specifically, in the context of cluster
analysis. In particular, we elaborate on the use of AUC as an internal/relative
measure of clustering quality, which we refer to as Area Under the Curve for
Clustering (AUCC). We show that the AUCC of a given candidate clustering
solution has an expected value under a null model of random clustering
solutions, regardless of the size of the dataset and, more importantly,
regardless of the number or the (im)balance of clusters under evaluation. In
addition, we elaborate on the fact that, in the context of internal/relative
clustering validation as we consider, AUCC is actually a linear transformation
of the Gamma criterion from Baker and Hubert (1975), for which we also formally
derive a theoretical expected value for chance clusterings. We also discuss the
computational complexity of these criteria and show that, while an ordinary
implementation of Gamma can be computationally prohibitive and impractical for
most real applications of cluster analysis, its equivalence with AUCC actually
unveils a much more efficient algorithmic procedure. Our theoretical findings
are supported by experimental results. These results show that, in addition to
an effective and robust quantitative evaluation provided by AUCC, visual
inspection of the ROC curves themselves can be useful to further assess a
candidate clustering solution from a broader, qualitative perspective as well.
- Abstract(参考訳): 受信者動作特性(roc)曲線の下の領域はaucと呼ばれ、教師付き学習領域においてよく知られた性能指標である。
その説得力のある特徴から、様々な分類器の性能を評価し比較するために多くの研究に用いられてきた。
本研究では、AUCを教師なし学習領域におけるパフォーマンス指標として、より具体的にはクラスタ分析の文脈で検討する。
特に、AUCをクラスタリング品質の内/相対的な尺度として使用することについて詳しく述べ、これをAUCC(Area Under the Curve for Clustering)と呼ぶ。
候補クラスタリングソリューションのAUCCは、データセットのサイズにかかわらず、ランダムクラスタリングソリューションのヌルモデルの下で期待値を持ち、さらに重要なことは、評価中のクラスタの数や(im)バランスによらず、期待値を持つことを示す。
さらに、AUCCは実際、ベイカー・アンド・ヒューバート(1975)のガンマ基準の線形変換であり、偶然クラスタリングの理論的期待値も導出するという事実について詳しく述べる。
また,これらの基準の計算複雑性を考察し,一般のガンマ実装は,クラスター解析のほとんどの実応用において計算的に禁止的で実用的ではないものの,auccとの等価性は,より効率的なアルゴリズム手順を実際に明らかにしていることを示す。
実験結果から理論的知見が得られた。
これらの結果は、AUCCが提供する有効かつ堅牢な定量的評価に加えて、ROC曲線自体の視覚的検査が、より広範で質的な観点からのクラスタリングソリューションのさらなる評価にも有用であることを示している。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Adaptive Self-supervised Robust Clustering for Unstructured Data with Unknown Cluster Number [12.926206811876174]
適応型自己教師型ロバストクラスタリング(Adaptive Self-supervised Robust Clustering, ASRC)と呼ばれる非構造化データに適した,新たな自己教師型ディープクラスタリング手法を提案する。
ASRCはグラフ構造とエッジ重みを適応的に学習し、局所構造情報と大域構造情報の両方をキャプチャする。
ASRCは、クラスタ数の事前知識に依存するメソッドよりも優れており、非構造化データのクラスタリングの課題に対処する上での有効性を強調している。
論文 参考訳(メタデータ) (2024-07-29T15:51:09Z) - From A-to-Z Review of Clustering Validation Indices [4.08908337437878]
我々は、最も一般的なクラスタリングアルゴリズムを用いて、内部および外部クラスタリング検証指標の性能をレビューし、評価する。
内部クラスタリング検証と外部クラスタリング検証の両方の機能を調べるための分類フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T13:52:02Z) - Interpretable Clustering with the Distinguishability Criterion [0.4419843514606336]
本稿では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,分散可能性基準と呼ばれるグローバルな基準を提案する。
本稿では、分散可能性基準と多くの一般的なクラスタリング手順を統合した損失関数に基づく計算フレームワークを提案する。
シミュレーション研究および実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T16:38:15Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Clustering Validation with The Area Under Precision-Recall Curves [0.0]
クラスタリングバリデーションインデックス(CVI)は、実際のアプリケーションシナリオにおけるクラスタリングバリデーションを可能にする。
我々はこれらがCVIとして適切であるだけでなく、クラスタ不均衡の存在においても好ましいことを示します。
提案したCVIと最先端のCVIを、実データおよびシミュレーションデータセット上で総合的に評価する。
論文 参考訳(メタデータ) (2023-04-04T01:49:57Z) - Oracle-guided Contrastive Clustering [28.066047266687058]
Oracle-Guided Contrastive Clustering(OCC)は,ユニークな要求を持ったオーラクルに対して,ペアワイズで同クラスタ"クエリを対話的に作成することで,クラスタリングを実現する。
私たちの知る限りでは、パーソナライズされたクラスタリングを実行する最初のディープフレームワークです。
論文 参考訳(メタデータ) (2022-11-01T12:05:12Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。