論文の概要: Adjusted Asymmetric Accuracy: A Well-Behaving External Cluster Validity
Measure
- arxiv url: http://arxiv.org/abs/2209.02935v1
- Date: Wed, 7 Sep 2022 05:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:08:54.004102
- Title: Adjusted Asymmetric Accuracy: A Well-Behaving External Cluster Validity
Measure
- Title(参考訳): 調整された非対称精度:快適な外部クラスタ妥当性尺度
- Authors: Marek Gagolewski
- Abstract要約: クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。
最適セットマッチング精度の非対称バージョンを提案し,解析する。
- 参考スコア(独自算出の注目度): 4.429175633425273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is no, nor will there ever be, single best clustering algorithm, but we
would still like to be able to pinpoint those which are well-performing on
certain task types and filter out the systematically disappointing ones.
Clustering algorithms are traditionally evaluated using either internal or
external validity measures. Internal measures quantify different aspects of the
obtained partitions, e.g., the average degree of cluster compactness or point
separability. Yet, their validity is questionable because the clusterings they
promote can sometimes be meaningless. External measures, on the other hand,
compare the algorithms' outputs to the reference, ground truth groupings that
are provided by experts. The commonly-used classical partition similarity
scores, such as the normalised mutual information, Fowlkes-Mallows, or adjusted
Rand index, might not possess all the desirable properties, e.g., they do not
identify pathological edge cases correctly. Furthermore, they are not nicely
interpretable: it is hard to say what a score of 0.8 really means. Its
behaviour might also vary as the number of true clusters changes. This makes
comparing clustering algorithms across many benchmark datasets difficult. To
remedy this, we propose and analyse a new measure: an asymmetric version of the
optimal set-matching accuracy. It is corrected for chance and the
imbalancedness of cluster sizes.
- Abstract(参考訳): 最高のクラスタリングアルゴリズムは存在しませんし、そうでもありませんが、特定のタスクタイプでうまく機能しているものを特定し、体系的に失望しているものを取り除きたいと思っています。
クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。
内部測度は得られた分割の異なる側面、例えばクラスタのコンパクト性や点分離性の平均度を定量化する。
しかし、その妥当性は疑わしい。なぜなら、彼らが促進するクラスタリングは時々意味をなさない可能性があるからだ。
一方、外部尺度では、アルゴリズムの出力を、専門家が提供した基準である根拠真理グループと比較する。
正規化された相互情報、フクロウケマロ、調整されたランド指数など、一般的に使われる古典的分割類似度スコアは、すべての望ましい特性を有しないかもしれない。
さらに、それらはうまく解釈できない:0.8のスコアが何を意味するかは言いづらい。
その振る舞いは、真のクラスタ数の変化によっても変化する可能性がある。
これにより、多くのベンチマークデータセット間のクラスタリングアルゴリズムの比較が困難になる。
これを解決するために、最適セットマッチング精度の非対称バージョンである新しい尺度を提案し、分析する。
確率とクラスタサイズの不均衡を補正する。
関連論文リスト
- Can an unsupervised clustering algorithm reproduce a categorization system? [1.0485739694839669]
ラベル付きデータセットにおいて、教師なしクラスタリングが真理クラスを再現できるかどうかを検討する。
成功は特徴選択と選択した距離測定に依存することを示す。
論文 参考訳(メタデータ) (2024-08-19T18:27:14Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Selecting the number of clusters, clustering models, and algorithms. A
unifying approach based on the quadratic discriminant score [0.5330240017302619]
本稿では,多数のクラスタリングソリューションの中から選択可能な選択規則を提案する。
提案手法は,他の最先端手法と比較できない分割を比較できるという特徴的利点を有する。
論文 参考訳(メタデータ) (2021-11-03T15:38:58Z) - J-Score: A Robust Measure of Clustering Accuracy [8.33909555155795]
クラスタリング分析は、データセットに隠された構造を発見し、それらを非結合クラスタに分割する。
現在のクラスタリング精度測定には、未整合クラスタを見渡すこと、過剰なクラスタへのバイアス、不安定なベースライン、難解な解釈が含まれる。
これらの問題に対処する新しい精度尺度 J-score を提案する。
論文 参考訳(メタデータ) (2021-09-03T04:43:52Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Selecting the Number of Clusters $K$ with a Stability Trade-off: an
Internal Validation Criterion [0.0]
クラスタリングの安定性は自然でモデルに依存しない原理として現れてきた。
優れたクラスタリングは安定すべきであり、各クラスタには安定したパーティションが存在しなければならない、という新しい原則を提案します。
論文 参考訳(メタデータ) (2020-06-15T16:38:48Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。