論文の概要: ABCDE: Application-Based Cluster Diff Evals
- arxiv url: http://arxiv.org/abs/2407.21430v1
- Date: Wed, 31 Jul 2024 08:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 18:50:07.895669
- Title: ABCDE: Application-Based Cluster Diff Evals
- Title(参考訳): ABCDE: アプリケーションベースのクラスタディフ
- Authors: Stephan van Staden, Alexander Grubb,
- Abstract要約: それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License:
- Abstract: This paper considers the problem of evaluating clusterings of very large populations of items. Given two clusterings, namely a Baseline clustering and an Experiment clustering, the tasks are twofold: 1) characterize their differences, and 2) determine which clustering is better. ABCDE is a novel evaluation technique for accomplishing that. It aims to be practical: it allows items to have associated importance values that are application-specific, it is frugal in its use of human judgements when determining which clustering is better, and it can report metrics for arbitrary slices of items, thereby facilitating understanding and debugging. The approach to measuring the delta in the clustering quality is novel: instead of trying to construct an expensive ground truth up front and evaluating the each clustering with respect to that, where the ground truth must effectively pre-anticipate clustering changes, ABCDE samples questions for judgement on the basis of the actual diffs between the clusterings. ABCDE builds upon the pointwise metrics for clustering evaluation, which make the ABCDE metrics intuitive and simple to understand. The mathematical elegance of the pointwise metrics equip ABCDE with rigorous yet practical ways to explore the clustering diffs and to estimate the quality delta.
- Abstract(参考訳): 本稿では,非常に多数のアイテムのクラスタリングを評価することの問題点について考察する。
ベースラインクラスタリングと実験クラスタリングの2つのクラスタリングが与えられた場合、タスクは次の2つになる。
1)相違点を特徴づけ、
2) どのクラスタがよいかを決定する。
ABCDEはそれを実現するための新しい評価手法である。
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、任意のアイテムのスライスに関するメトリクスを報告し、理解とデバッグを容易にする。
クラスタリング品質の差分を測定するためのアプローチは、前もって高価な基底真理を構築し、それに関して各クラスタリングを評価する代わりに、基底真理がクラスタリングの変化を効果的に予測する必要がある場合、ABCDEはクラスタリング間の実際の差分に基づいて、判断のための質問をサンプリングする。
ABCDEはクラスタリング評価のためのポイントワイズメトリクスの上に構築されており、ABCDEメトリクスは直感的で分かりやすくなっている。
ポイントワイズ計量の数学的エレガンス ABCDE は、クラスタリング差分を探索し、品質デルタを推定するための厳密で実用的な方法を持つ。
関連論文リスト
- Dying Clusters Is All You Need -- Deep Clustering With an Unknown Number of Clusters [5.507296054825372]
高次元データで有意義なグループを見つけることは、データマイニングにおいて重要な課題である。
深層クラスタリング手法はこれらの課題において顕著な成果を上げている。
これらのメソッドの多くは、事前にクラスタの数を指定する必要がある。
これは、ラベル付きデータが利用できない場合、クラスタの数は通常不明であるため、大きな制限となる。
これらのアプローチのほとんどは、クラスタリングプロセスから分離されたクラスタの数を見積もっています。
論文 参考訳(メタデータ) (2024-10-12T11:04:10Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Self-supervised Contrastive Attributed Graph Clustering [110.52694943592974]
我々は,自己教師型コントラストグラフクラスタリング(SCAGC)という,新たな属性グラフクラスタリングネットワークを提案する。
SCAGCでは,不正確なクラスタリングラベルを活用することで,ノード表現学習のための自己教師付きコントラスト損失を設計する。
OOSノードでは、SCAGCはクラスタリングラベルを直接計算できる。
論文 参考訳(メタデータ) (2021-10-15T03:25:28Z) - J-Score: A Robust Measure of Clustering Accuracy [8.33909555155795]
クラスタリング分析は、データセットに隠された構造を発見し、それらを非結合クラスタに分割する。
現在のクラスタリング精度測定には、未整合クラスタを見渡すこと、過剰なクラスタへのバイアス、不安定なベースライン、難解な解釈が含まれる。
これらの問題に対処する新しい精度尺度 J-score を提案する。
論文 参考訳(メタデータ) (2021-09-03T04:43:52Z) - Learning to Cluster via Same-Cluster Queries [26.284461833343403]
我々は,同一クラスタクエリに応答可能なオラクルを用いて,データポイントのクラスタ化を学習する問題について検討する。
提案する2つのアルゴリズムは, 理論的保証を証明可能とし, 合成データと実世界のデータの両方に関する広範な実験により, 有効性を検証する。
論文 参考訳(メタデータ) (2021-08-17T00:37:11Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Unsupervised Visual Representation Learning by Online Constrained
K-Means [44.38989920488318]
クラスタ識別は、教師なし表現学習の効果的な前提課題である。
オンラインtextbfConstrained textbfK-mtextbfeans (textbfCoKe) を用いたクラスタリングに基づく新しいプリテキストタスクを提案する。
当社のオンライン割当て方式は,グローバルな最適化に近づくための理論的保証を持っている。
論文 参考訳(メタデータ) (2021-05-24T20:38:32Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。