論文の概要: The Area Under the ROC Curve as a Measure of Clustering Quality
- arxiv url: http://arxiv.org/abs/2009.02400v2
- Date: Wed, 22 Dec 2021 21:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 01:51:43.713068
- Title: The Area Under the ROC Curve as a Measure of Clustering Quality
- Title(参考訳): クラスタリング品質の指標としてのROC曲線下地域
- Authors: Pablo Andretta Jaskowiak, Ivan Gesteira Costa, Ricardo Jos\'e
Gabrielli Barreto Campello
- Abstract要約: Area Under the Curve for Clustering (AUCC) はクラスタリングの品質の内/相対的な尺度である。
AUCC はベーカー・アンド・ヒューバート (1975) によるガンマ基準の線型変換である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Area Under the the Receiver Operating Characteristics (ROC) Curve,
referred to as AUC, is a well-known performance measure in the supervised
learning domain. Due to its compelling features, it has been employed in a
number of studies to evaluate and compare the performance of different
classifiers. In this work, we explore AUC as a performance measure in the
unsupervised learning domain, more specifically, in the context of cluster
analysis. In particular, we elaborate on the use of AUC as an internal/relative
measure of clustering quality, which we refer to as Area Under the Curve for
Clustering (AUCC). We show that the AUCC of a given candidate clustering
solution has an expected value under a null model of random clustering
solutions, regardless of the size of the dataset and, more importantly,
regardless of the number or the (im)balance of clusters under evaluation. In
addition, we elaborate on the fact that, in the context of internal/relative
clustering validation as we consider, AUCC is actually a linear transformation
of the Gamma criterion from Baker and Hubert (1975), for which we also formally
derive a theoretical expected value for chance clusterings. We also discuss the
computational complexity of these criteria and show that, while an ordinary
implementation of Gamma can be computationally prohibitive and impractical for
most real applications of cluster analysis, its equivalence with AUCC actually
unveils a much more efficient algorithmic procedure. Our theoretical findings
are supported by experimental results. These results show that, in addition to
an effective and robust quantitative evaluation provided by AUCC, visual
inspection of the ROC curves themselves can be useful to further assess a
candidate clustering solution from a broader, qualitative perspective as well.
- Abstract(参考訳): 受信者動作特性(roc)曲線の下の領域はaucと呼ばれ、教師付き学習領域においてよく知られた性能指標である。
その説得力のある特徴から、様々な分類器の性能を評価し比較するために多くの研究に用いられてきた。
本研究では、AUCを教師なし学習領域におけるパフォーマンス指標として、より具体的にはクラスタ分析の文脈で検討する。
特に、AUCをクラスタリング品質の内/相対的な尺度として使用することについて詳しく述べ、これをAUCC(Area Under the Curve for Clustering)と呼ぶ。
候補クラスタリングソリューションのAUCCは、データセットのサイズにかかわらず、ランダムクラスタリングソリューションのヌルモデルの下で期待値を持ち、さらに重要なことは、評価中のクラスタの数や(im)バランスによらず、期待値を持つことを示す。
さらに、AUCCは実際、ベイカー・アンド・ヒューバート(1975)のガンマ基準の線形変換であり、偶然クラスタリングの理論的期待値も導出するという事実について詳しく述べる。
また,これらの基準の計算複雑性を考察し,一般のガンマ実装は,クラスター解析のほとんどの実応用において計算的に禁止的で実用的ではないものの,auccとの等価性は,より効率的なアルゴリズム手順を実際に明らかにしていることを示す。
実験結果から理論的知見が得られた。
これらの結果は、AUCCが提供する有効かつ堅牢な定量的評価に加えて、ROC曲線自体の視覚的検査が、より広範で質的な観点からのクラスタリングソリューションのさらなる評価にも有用であることを示している。
関連論文リスト
- Clustering Validation with The Area Under Precision-Recall Curves [0.0]
クラスタリングバリデーションインデックス(CVI)は、実際のアプリケーションシナリオにおけるクラスタリングバリデーションを可能にする。
我々はこれらがCVIとして適切であるだけでなく、クラスタ不均衡の存在においても好ましいことを示します。
提案したCVIと最先端のCVIを、実データおよびシミュレーションデータセット上で総合的に評価する。
論文 参考訳(メタデータ) (2023-04-04T01:49:57Z) - Cluster-level Group Representativity Fairness in $k$-means Clustering [3.420467786581458]
クラスタリングアルゴリズムは、異なるグループが異なるクラスタ内で不利になるようにクラスタを生成することができる。
我々は,古典的アルゴリズムに先駆けて,セントロイドクラスタリングパラダイムに基づくクラスタリングアルゴリズムを開発した。
本手法はクラスタレベルの表現性フェアネスを,クラスタのコヒーレンスに低い影響で向上させるのに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-29T22:02:28Z) - Oracle-guided Contrastive Clustering [28.066047266687058]
Oracle-Guided Contrastive Clustering(OCC)は,ユニークな要求を持ったオーラクルに対して,ペアワイズで同クラスタ"クエリを対話的に作成することで,クラスタリングを実現する。
私たちの知る限りでは、パーソナライズされたクラスタリングを実行する最初のディープフレームワークです。
論文 参考訳(メタデータ) (2022-11-01T12:05:12Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Deep Fair Discriminative Clustering [24.237000220172906]
2値および多状態保護状態変数(PSV)に対するグループレベルの公正性の一般概念について検討する。
本稿では,クラスタリング目標とフェアネス目標とを組み合わせて,フェアクラスタを適応的に学習する改良学習アルゴリズムを提案する。
本フレームワークは, フレキシブルフェアネス制約, マルチステートPSV, 予測クラスタリングなど, 新規なクラスタリングタスクに対して有望な結果を示す。
論文 参考訳(メタデータ) (2021-05-28T23:50:48Z) - Performance evaluation results of evolutionary clustering algorithm star
for clustering heterogeneous datasets [15.154538450706474]
本稿では,進化的クラスタリングアルゴリズムstar(eca*)の性能評価のためのデータを提案する。
従来の5つのクラスタリングアルゴリズムに対するeca*の性能を調べるために、2つの実験手法が用いられた。
論文 参考訳(メタデータ) (2021-04-30T08:17:19Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Contrastive Clustering [57.71729650297379]
本稿では,インスタンスレベルのコントラスト学習を明示的に行うContrastive Clustering (CC)を提案する。
特にCCは、CIFAR-10(CIFAR-100)データセット上で0.705(0.431)のNMIを達成しており、最高のベースラインと比較して最大19%(39%)のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-09-21T08:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。