論文の概要: Normalised clustering accuracy: An asymmetric external cluster validity
measure
- arxiv url: http://arxiv.org/abs/2209.02935v2
- Date: Sun, 1 Oct 2023 02:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 21:20:30.872737
- Title: Normalised clustering accuracy: An asymmetric external cluster validity
measure
- Title(参考訳): 正規化クラスタリング精度:非対称外部クラスタ妥当性尺度
- Authors: Marek Gagolewski
- Abstract要約: クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。
本稿では、一般的に使われている古典的分割類似度スコアは、いくつかの望ましい性質を欠いていると論じる。
我々は,最適セットマッチング精度のバージョンである新しい尺度を提案し,分析する。
- 参考スコア(独自算出の注目度): 2.900810893770134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is no, nor will there ever be, single best clustering algorithm, but we
would still like to be able to distinguish between methods which work well on
certain task types and those that systematically underperform. Clustering
algorithms are traditionally evaluated using either internal or external
validity measures. Internal measures quantify different aspects of the obtained
partitions, e.g., the average degree of cluster compactness or point
separability. Yet, their validity is questionable, because the clusterings they
promote can sometimes be meaningless. External measures, on the other hand,
compare the algorithms' outputs to the reference, ground truth groupings that
are provided by experts. In this paper, we argue that the commonly-used
classical partition similarity scores, such as the normalised mutual
information, Fowlkes-Mallows, or adjusted Rand index, miss some desirable
properties, e.g., they do not identify worst-case scenarios correctly or are
not easily interpretable. This makes comparing clustering algorithms across
many benchmark datasets difficult. To remedy these issues, we propose and
analyse a new measure: a version of the optimal set-matching accuracy, which is
normalised, monotonic, scale invariant, and corrected for the imbalancedness of
cluster sizes (but neither symmetric nor adjusted for chance).
- Abstract(参考訳): 最高のクラスタリングアルゴリズムは存在しませんし、そうでもありませんが、特定のタスクタイプでうまく機能するメソッドと、体系的に劣るメソッドを区別したいと思っています。
クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。
内部測度は得られた分割の異なる側面、例えばクラスタのコンパクト性や点分離性の平均度を定量化する。
しかし、それらの妥当性は疑わしい。なぜなら、彼らが宣伝するクラスタリングは、時々意味がない。
一方、外部尺度では、アルゴリズムの出力を、専門家が提供した基準である根拠真理グループと比較する。
本稿では,正規化相互情報やfowlkes-mallows,調整ランドインデックスなど,一般的に使用される古典的分割類似度スコアが望ましい性質を欠いていること,例えば,最悪のシナリオを正しく識別していないこと,あるいは容易に解釈できないこと,などを論じる。
これにより、多くのベンチマークデータセット間のクラスタリングアルゴリズムの比較が困難になる。
これらの問題を治療するために、我々は、最適なセットマッチング精度のバージョンを提案し、分析する: 正規化され、単調で、スケール不変であり、クラスタサイズの不均衡を補正する(ただし、対称性も、偶然の調整もしない)。
関連論文リスト
- Can an unsupervised clustering algorithm reproduce a categorization system? [1.0485739694839669]
ラベル付きデータセットにおいて、教師なしクラスタリングが真理クラスを再現できるかどうかを検討する。
成功は特徴選択と選択した距離測定に依存することを示す。
論文 参考訳(メタデータ) (2024-08-19T18:27:14Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Selecting the number of clusters, clustering models, and algorithms. A
unifying approach based on the quadratic discriminant score [0.5330240017302619]
本稿では,多数のクラスタリングソリューションの中から選択可能な選択規則を提案する。
提案手法は,他の最先端手法と比較できない分割を比較できるという特徴的利点を有する。
論文 参考訳(メタデータ) (2021-11-03T15:38:58Z) - J-Score: A Robust Measure of Clustering Accuracy [8.33909555155795]
クラスタリング分析は、データセットに隠された構造を発見し、それらを非結合クラスタに分割する。
現在のクラスタリング精度測定には、未整合クラスタを見渡すこと、過剰なクラスタへのバイアス、不安定なベースライン、難解な解釈が含まれる。
これらの問題に対処する新しい精度尺度 J-score を提案する。
論文 参考訳(メタデータ) (2021-09-03T04:43:52Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Selecting the Number of Clusters $K$ with a Stability Trade-off: an
Internal Validation Criterion [0.0]
クラスタリングの安定性は自然でモデルに依存しない原理として現れてきた。
優れたクラスタリングは安定すべきであり、各クラスタには安定したパーティションが存在しなければならない、という新しい原則を提案します。
論文 参考訳(メタデータ) (2020-06-15T16:38:48Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。