論文の概要: Normalised clustering accuracy: An asymmetric external cluster validity
measure
- arxiv url: http://arxiv.org/abs/2209.02935v3
- Date: Sat, 13 Jan 2024 05:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 03:44:42.874408
- Title: Normalised clustering accuracy: An asymmetric external cluster validity
measure
- Title(参考訳): 正規化クラスタリング精度:非対称外部クラスタ妥当性尺度
- Authors: Marek Gagolewski
- Abstract要約: クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。
一般的に使用される古典的分割類似度スコアは、いくつかの望ましい性質を欠いていると論じる。
我々は,最適セットマッチング精度という新しい尺度を提案し,分析する。
- 参考スコア(独自算出の注目度): 2.900810893770134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is no, nor will there ever be, single best clustering algorithm, but we
would still like to be able to distinguish between methods which work well on
certain task types and those that systematically underperform. Clustering
algorithms are traditionally evaluated using either internal or external
validity measures. Internal measures quantify different aspects of the obtained
partitions, e.g., the average degree of cluster compactness or point
separability. Yet, their validity is questionable, because the clusterings they
promote can sometimes be meaningless. External measures, on the other hand,
compare the algorithms' outputs to the fixed ground truth groupings that are
provided by experts. In this paper, we argue that the commonly-used classical
partition similarity scores, such as the normalised mutual information,
Fowlkes--Mallows, or adjusted Rand index, miss some desirable properties. In
particular, they do not identify worst-case scenarios correctly nor are they
easily interpretable. As a consequence, it can be difficult to evaluate
clustering algorithms on diverse benchmark datasets. To remedy these issues, we
propose and analyse a new measure: a version of the optimal set-matching
accuracy, which is normalised, monotonic with respect to some similarity
relation, scale invariant, and corrected for the imbalancedness of cluster
sizes (but neither symmetric nor adjusted for chance).
- Abstract(参考訳): 最高のクラスタリングアルゴリズムは存在しませんし、そうでもありませんが、特定のタスクタイプでうまく機能するメソッドと、体系的に劣るメソッドを区別したいと思っています。
クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。
内部測度は得られた分割の異なる側面、例えばクラスタのコンパクト性や点分離性の平均度を定量化する。
しかし、それらの妥当性は疑わしい。なぜなら、彼らが宣伝するクラスタリングは、時々意味がない。
一方、外部測度は、アルゴリズムの出力を専門家によって提供される固定された真実グループと比較する。
本稿では,正規化相互情報やfowlkes-mallows,調整されたrand indexといった,一般的に使用される古典的分割類似度スコアが望ましい性質を欠いていることを論じる。
特に、最悪のシナリオを正しく特定したり、容易に解釈したりしない。
その結果、多様なベンチマークデータセット上でクラスタリングアルゴリズムを評価することは困難である。
これらの問題を解決するために, 最適セットマッチング精度のバージョンを, ある類似性関係に対して一調性, スケール不変性, クラスターサイズの不均衡性(しかし, 対称的でも、偶然に調整されたわけでもない)で正規化し, 修正する, という新しい尺度を提案し, 解析する。
関連論文リスト
- Optimal Algorithms for Decentralized Stochastic Variational Inequalities [113.43047601775453]
この作業は、ますます重要になるが十分に理解されていない分散的な設定に集中する。
通信と局所的な繰り返しの両方の下位境界を示し、これらの下位境界に一致する最適なアルゴリズムを構築する。
我々のアルゴリズムは、分散化されたケースだけでなく、決定論的で非分散的な文献でも利用できる。
論文 参考訳(メタデータ) (2022-02-06T13:14:02Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Shift of Pairwise Similarities for Data Clustering [7.462336024223667]
正規化項がクラスタの2乗サイズの和である場合を考察し、ペアの類似性の適応正規化に一般化する。
これは、ペアの類似性を(適切に)シフトさせ、それらのうちのいくつかを負にする可能性がある。
そこで我々は,新しいクラスタリング問題を解くために,高速な理論的収束率を持つ効率的な局所探索最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-25T16:55:07Z) - J-Score: A Robust Measure of Clustering Accuracy [8.33909555155795]
クラスタリング分析は、データセットに隠された構造を発見し、それらを非結合クラスタに分割する。
現在のクラスタリング精度測定には、未整合クラスタを見渡すこと、過剰なクラスタへのバイアス、不安定なベースライン、難解な解釈が含まれる。
これらの問題に対処する新しい精度尺度 J-score を提案する。
論文 参考訳(メタデータ) (2021-09-03T04:43:52Z) - Applying Semi-Automated Hyperparameter Tuning for Clustering Algorithms [0.0]
本研究では,クラスタリング問題に対する半自動ハイパーパラメータチューニングのためのフレームワークを提案する。
グリッド検索を使用して一連のグラフを開発し、メトリクスを解釈しやすくし、より効率的なドメイン固有評価に使用できる。
予備的な結果は、内部メトリクスが、開発されたクラスタのセマンティックな品質をキャプチャできないことを示している。
論文 参考訳(メタデータ) (2021-08-25T05:48:06Z) - Near-Optimal Comparison Based Clustering [7.930242839366938]
提案手法は, ほぼ最適な比較数を用いて, 植え付けクラスタリングを復元できることを示す。
理論的知見を実証的に検証し,実データ上での手法の良好な振る舞いを実証する。
論文 参考訳(メタデータ) (2020-10-08T12:03:13Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - A generalized Bayes framework for probabilistic clustering [3.3194866396158]
k平均とその変種のようなロスベースのクラスタリング手法は、データ内のグループを見つけるための標準ツールである。
混合モデルに基づくモデルベースのクラスタリングは代替手段を提供するが、そのような手法は計算上の問題に直面し、カーネルの選択に対して大きな感度を持つ。
本稿では,これらの2つのパラダイムをGibs後続法を用いてブリッジする一般化ベイズフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T18:49:32Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。