論文の概要: More Clustering Quality Metrics for ABCDE
- arxiv url: http://arxiv.org/abs/2409.13376v1
- Date: Fri, 20 Sep 2024 10:24:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 15:26:57.741558
- Title: More Clustering Quality Metrics for ABCDE
- Title(参考訳): ABCDEのクラスタリング品質指標
- Authors: Stephan van Staden,
- Abstract要約: ABCDEは、非常に多数のアイテムのクラスタリングを評価する技術である。
本稿では,クラスタリング差分が品質向上に寄与する程度を特徴付けるため,IQと呼ばれる新しい指標を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: ABCDE is a technique for evaluating clusterings of very large populations of items. Given two clusterings, namely a Baseline clustering and an Experiment clustering, ABCDE can characterize their differences with impact and quality metrics, and thus help to determine which clustering to prefer. We previously described the basic quality metrics of ABCDE, namely the GoodSplitRate, BadSplitRate, GoodMergeRate, BadMergeRate and DeltaPrecision, and how to estimate them on the basis of human judgements. This paper extends that treatment with more quality metrics. It describes a technique that aims to characterize the DeltaRecall of the clustering change. It introduces a new metric, called IQ, to characterize the degree to which the clustering diff translates into an improvement in the quality. Ideally, a large diff would improve the quality by a large amount. Finally, this paper mentions ways to characterize the absolute Precision and Recall of a single clustering with ABCDE.
- Abstract(参考訳): ABCDEは、非常に多数のアイテムのクラスタリングを評価する技術である。
BaselineクラスタリングとExperimentクラスタリングという2つのクラスタリングが与えられたABCDEは、影響と品質メトリクスの違いを特徴付けることができ、どのクラスタが望ましいかを決定するのに役立ちます。
ABCDEの基本的品質指標、すなわち、GoodSplitRate、BadSplitRate、GoodMergeRate、BadMergeRate、DeltaPrecisionについて述べ、人間の判断に基づいてそれらを見積もる方法について説明した。
本稿では、その治療を、より高品質なメトリクスで拡張する。
クラスタリング変更のDeltaRecallを特徴付ける技術について説明する。
IQと呼ばれる新しいメトリクスを導入し、クラスタリング差分が品質改善に変換される程度を特徴付ける。
理想的には、大きな差分が大量の品質を改善するだろう。
最後に,ABCDEを用いた単一クラスタリングの絶対精度とリコールを特徴付ける方法について述べる。
関連論文リスト
- KULCQ: An Unsupervised Keyword-based Utterance Level Clustering Quality Metric [0.5671051073036456]
キーワードベースのUtterance Level Clustering Quality (KULCQ)は、キーワード分析を利用してクラスタリングの品質を評価する教師なしメトリクスである。
その結果、KULCQは、幾何学的クラスタリング原理との整合性を保ちながら、会話データのセマンティックな関係をよりよく捉えていることがわかった。
論文 参考訳(メタデータ) (2024-11-15T00:21:02Z) - Decomposing the Jaccard Distance and the Jaccard Index in ABCDE [0.0]
本稿では、JaccardDistanceとJaccardIndexをさらに分解する。
いずれの場合も、分解によって影響と品質の指標が得られます。
新しい測度は数学的によく理解されており、単純な方程式を通して相互に関連している。
論文 参考訳(メタデータ) (2024-09-27T08:00:32Z) - Evaluation of Cluster Id Assignment Schemes with ABCDE [0.0]
クラスタID割り当てスキームは、クラスタリングの各クラスタを別個のIDでラベル付けする。
セマンティックIDの安定性により、クラスタリングのユーザは、クラスタリング/時間にわたって安定したIDを持つコンセプトのクラスタを参照することができる。
本稿では,ID代入方式の相対的メリットを評価することの課題について論じる。
論文 参考訳(メタデータ) (2024-09-26T19:56:56Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Contrastive Clustering [57.71729650297379]
本稿では,インスタンスレベルのコントラスト学習を明示的に行うContrastive Clustering (CC)を提案する。
特にCCは、CIFAR-10(CIFAR-100)データセット上で0.705(0.431)のNMIを達成しており、最高のベースラインと比較して最大19%(39%)のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-09-21T08:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。