Fugu-MT 論文翻訳(概要): Normalised clustering accuracy: An asymmetric external cluster validity measure

論文の概要: Normalised clustering accuracy: An asymmetric external cluster validity measure

arxiv url: http://arxiv.org/abs/2209.02935v3
Date: Sat, 13 Jan 2024 05:55:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 03:44:42.874408
Title: Normalised clustering accuracy: An asymmetric external cluster validity measure
Title（参考訳）: 正規化クラスタリング精度:非対称外部クラスタ妥当性尺度
Authors: Marek Gagolewski
Abstract要約: クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。一般的に使用される古典的分割類似度スコアは、いくつかの望ましい性質を欠いていると論じる。我々は,最適セットマッチング精度という新しい尺度を提案し,分析する。
参考スコア（独自算出の注目度）: 2.900810893770134
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There is no, nor will there ever be, single best clustering algorithm, but we would still like to be able to distinguish between methods which work well on certain task types and those that systematically underperform. Clustering algorithms are traditionally evaluated using either internal or external validity measures. Internal measures quantify different aspects of the obtained partitions, e.g., the average degree of cluster compactness or point separability. Yet, their validity is questionable, because the clusterings they promote can sometimes be meaningless. External measures, on the other hand, compare the algorithms' outputs to the fixed ground truth groupings that are provided by experts. In this paper, we argue that the commonly-used classical partition similarity scores, such as the normalised mutual information, Fowlkes--Mallows, or adjusted Rand index, miss some desirable properties. In particular, they do not identify worst-case scenarios correctly nor are they easily interpretable. As a consequence, it can be difficult to evaluate clustering algorithms on diverse benchmark datasets. To remedy these issues, we propose and analyse a new measure: a version of the optimal set-matching accuracy, which is normalised, monotonic with respect to some similarity relation, scale invariant, and corrected for the imbalancedness of cluster sizes (but neither symmetric nor adjusted for chance).
Abstract（参考訳）: 最高のクラスタリングアルゴリズムは存在しませんし、そうでもありませんが、特定のタスクタイプでうまく機能するメソッドと、体系的に劣るメソッドを区別したいと思っています。クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。内部測度は得られた分割の異なる側面、例えばクラスタのコンパクト性や点分離性の平均度を定量化する。しかし、それらの妥当性は疑わしい。なぜなら、彼らが宣伝するクラスタリングは、時々意味がない。一方、外部測度は、アルゴリズムの出力を専門家によって提供される固定された真実グループと比較する。本稿では,正規化相互情報やfowlkes-mallows,調整されたrand indexといった,一般的に使用される古典的分割類似度スコアが望ましい性質を欠いていることを論じる。特に、最悪のシナリオを正しく特定したり、容易に解釈したりしない。その結果、多様なベンチマークデータセット上でクラスタリングアルゴリズムを評価することは困難である。これらの問題を解決するために, 最適セットマッチング精度のバージョンを, ある類似性関係に対して一調性, スケール不変性, クラスターサイズの不均衡性(しかし, 対称的でも、偶然に調整されたわけでもない)で正規化し, 修正する, という新しい尺度を提案し, 解析する。

関連論文リスト

A Pragmatic Method for Comparing Clusterings with Overlaps and Outliers [0.7646713951724009]
一般的な設定では、検出された真理クラスタリングと地上の真理クラスタリングは、外れ値(クラスターに属さないオブジェクト)、重なり合うクラスタ(複数のクラスタに属するオブジェクト)、あるいはその両方を持つ。本稿では,クラスタリングを重なり合いや外れ値と比較するための実用的類似度尺度を定義し,いくつかの望ましい特性を持つことを示すとともに,他のクラスタリング比較尺度に係わるいくつかの共通のバイアスには属さないことを実験的に確認する。
論文参考訳（メタデータ） (2026-02-16T15:51:09Z)
K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。 k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文参考訳（メタデータ） (2025-05-17T08:41:07Z)
Can an unsupervised clustering algorithm reproduce a categorization system? [1.0485739694839669]
ラベル付きデータセットにおいて、教師なしクラスタリングが真理クラスを再現できるかどうかを検討する。成功は特徴選択と選択した距離測定に依存することを示す。
論文参考訳（メタデータ） (2024-08-19T18:27:14Z)
ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文参考訳（メタデータ） (2024-07-31T08:29:35Z)
Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-29T08:13:56Z)
Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。これは異常検出とは違い、その目標は異常を通常のデータから分割することである。パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-21T23:11:33Z)
Selecting the number of clusters, clustering models, and algorithms. A unifying approach based on the quadratic discriminant score [0.5330240017302619]
本稿では,多数のクラスタリングソリューションの中から選択可能な選択規則を提案する。提案手法は,他の最先端手法と比較できない分割を比較できるという特徴的利点を有する。
論文参考訳（メタデータ） (2021-11-03T15:38:58Z)
J-Score: A Robust Measure of Clustering Accuracy [8.33909555155795]
クラスタリング分析は、データセットに隠された構造を発見し、それらを非結合クラスタに分割する。現在のクラスタリング精度測定には、未整合クラスタを見渡すこと、過剰なクラスタへのバイアス、不安定なベースライン、難解な解釈が含まれる。これらの問題に対処する新しい精度尺度 J-score を提案する。
論文参考訳（メタデータ） (2021-09-03T04:43:52Z)
Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。 1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文参考訳（メタデータ） (2020-08-18T16:22:06Z)
Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。 DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文参考訳（メタデータ） (2020-06-29T08:55:50Z)
Selecting the Number of Clusters $K$ with a Stability Trade-off: an Internal Validation Criterion [0.0]
クラスタリングの安定性は自然でモデルに依存しない原理として現れてきた。優れたクラスタリングは安定すべきであり、各クラスタには安定したパーティションが存在しなければならない、という新しい原則を提案します。
論文参考訳（メタデータ） (2020-06-15T16:38:48Z)
Clustering Binary Data by Application of Combinatorial Optimization Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文参考訳（メタデータ） (2020-01-06T23:33:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。