論文の概要: Clustering Validation with The Area Under Precision-Recall Curves
- arxiv url: http://arxiv.org/abs/2304.01450v1
- Date: Tue, 4 Apr 2023 01:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 15:51:57.600801
- Title: Clustering Validation with The Area Under Precision-Recall Curves
- Title(参考訳): 高精度リコール曲線における領域クラスタリング検証
- Authors: Pablo Andretta Jaskowiak and Ivan Gesteira Costa
- Abstract要約: クラスタリングバリデーションインデックス(CVI)は、実際のアプリケーションシナリオにおけるクラスタリングバリデーションを可能にする。
我々はこれらがCVIとして適切であるだけでなく、クラスタ不均衡の存在においても好ましいことを示します。
提案したCVIと最先端のCVIを、実データおよびシミュレーションデータセット上で総合的に評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Confusion matrices and derived metrics provide a comprehensive framework for
the evaluation of model performance in machine learning. These are well-known
and extensively employed in the supervised learning domain, particularly
classification. Surprisingly, such a framework has not been fully explored in
the context of clustering validation. Indeed, just recently such a gap has been
bridged with the introduction of the Area Under the ROC Curve for Clustering
(AUCC), an internal/relative Clustering Validation Index (CVI) that allows for
clustering validation in real application scenarios. In this work we explore
the Area Under Precision-Recall Curve (and related metrics) in the context of
clustering validation. We show that these are not only appropriate as CVIs, but
should also be preferred in the presence of cluster imbalance. We perform a
comprehensive evaluation of proposed and state-of-art CVIs on real and
simulated data sets. Our observations corroborate towards an unified validation
framework for supervised and unsupervised learning, given that they are
consistent with existing guidelines established for the evaluation of
supervised learning models.
- Abstract(参考訳): 混乱行列と派生メトリクスは、機械学習におけるモデルパフォーマンスを評価するための包括的なフレームワークを提供する。
これらはよく知られ、教師付き学習領域、特に分類において広く使われている。
驚くべきことに、このようなフレームワークはクラスタリングバリデーションのコンテキストで十分に検討されていない。
実際、最近になってこのようなギャップが、実際のアプリケーションシナリオでクラスタリング検証を可能にする内部/関係クラスタリング検証インデックス(cvi)であるroc curve for clustering(aucc)の領域の導入によって埋められている。
本研究では,クラスタリング検証のコンテキストにおける精度-リコール曲線(および関連するメトリクス)について検討する。
我々はこれらがCVIとして適切であるだけでなく、クラスタ不均衡の存在においても好ましいことを示す。
実データとシミュレーションデータを用いて,提案および最先端cvisの総合評価を行う。
我々の観察は、教師付き学習モデルの評価のために確立された既存のガイドラインと一致しているため、教師付き学習と教師付き学習の統一検証フレームワークに一致している。
関連論文リスト
- Sanity Check for External Clustering Validation Benchmarks using
Internal Validation Measures [8.808021343665319]
ラベル付きデータセットに基づくクラスタリング手法のベンチマークにおける信頼性の欠如に対処する。
本稿では,データセット間でのCLMの比較を可能にする,データセット間の内部測度を生成するための原則的手法を提案する。
論文 参考訳(メタデータ) (2022-09-20T23:32:18Z) - Using Representation Expressiveness and Learnability to Evaluate
Self-Supervised Learning Methods [61.49061000562676]
本稿では,学習可能性を評価するためにCluster Learnability (CL)を導入する。
CLは、K-meansで表現をクラスタリングすることによって得られたラベルを予測するために訓練されたKNNのパフォーマンスで測定される。
CLは、他の競合する評価手法よりも分布内モデルの性能と相関することがわかった。
論文 参考訳(メタデータ) (2022-06-02T19:05:13Z) - ExpertNet: A Symbiosis of Classification and Clustering [22.324813752423044]
ExpertNetは、クラスタ化された潜在表現を学習し、クラスタ固有の分類器を効果的に組み合わせてそれらを活用するために、新しいトレーニング戦略を使用している。
本研究では,6つの大規模臨床データセットの最先端手法に対するExpertNetの優位性を実証する。
論文 参考訳(メタデータ) (2022-01-17T11:00:30Z) - Deep Conditional Gaussian Mixture Model for Constrained Clustering [7.070883800886882]
制約付きクラスタリングは、部分的にラベル付けされたデータの増加量に関する事前情報を利用することができる。
本稿では、直感的で解釈可能で、勾配変動推論の枠組みで効率的に訓練できる制約付きクラスタリングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T13:38:09Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Learning to Generate Fair Clusters from Demonstrations [27.423983748614198]
本稿では,専門家による限定的な実証に基づいて,問題に対する意図された公平性制約を特定する方法について述べる。
本稿では、実演からフェアネスメトリックを識別し、既存のオフザシェルフクラスタリング技術を用いてクラスタを生成するアルゴリズムを提案する。
本稿では,本手法を用いて解釈可能な解を生成する方法について検討する。
論文 参考訳(メタデータ) (2021-02-08T03:09:33Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - The Area Under the ROC Curve as a Measure of Clustering Quality [0.0]
Area Under the Curve for Clustering (AUCC) はクラスタリングの品質の内/相対的な尺度である。
AUCC はベーカー・アンド・ヒューバート (1975) によるガンマ基準の線型変換である。
論文 参考訳(メタデータ) (2020-09-04T21:34:51Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z) - Exploring Category-Agnostic Clusters for Open-Set Domain Adaptation [138.29273453811945]
本稿では、カテゴリ非依存クラスタ(SE-CC)を対象ドメインのカテゴリ非依存クラスタと組み合わせた、新たなアーキテクチャを提案する。
クラスタリングは、対象ドメイン特有の基盤となるデータ空間構造を明らかにするカテゴリ非依存クラスタを得るために、ラベルなしのターゲットサンプルすべてにわたって実行される。
論文 参考訳(メタデータ) (2020-06-11T16:19:02Z) - Generalized Zero-Shot Learning Via Over-Complete Distribution [79.5140590952889]
そこで本稿では,CVAE (Conditional Variational Autoencoder) を用いたOCD(Over-Complete Distribution) の生成を提案する。
フレームワークの有効性は,Zero-Shot LearningプロトコルとGeneralized Zero-Shot Learningプロトコルの両方を用いて評価する。
論文 参考訳(メタデータ) (2020-04-01T19:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。