論文の概要: Adjusted Asymmetric Accuracy: A Well-Behaving External Cluster Validity
Measure
- arxiv url: http://arxiv.org/abs/2209.02935v1
- Date: Wed, 7 Sep 2022 05:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:08:54.004102
- Title: Adjusted Asymmetric Accuracy: A Well-Behaving External Cluster Validity
Measure
- Title(参考訳): 調整された非対称精度:快適な外部クラスタ妥当性尺度
- Authors: Marek Gagolewski
- Abstract要約: クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。
最適セットマッチング精度の非対称バージョンを提案し,解析する。
- 参考スコア(独自算出の注目度): 4.429175633425273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is no, nor will there ever be, single best clustering algorithm, but we
would still like to be able to pinpoint those which are well-performing on
certain task types and filter out the systematically disappointing ones.
Clustering algorithms are traditionally evaluated using either internal or
external validity measures. Internal measures quantify different aspects of the
obtained partitions, e.g., the average degree of cluster compactness or point
separability. Yet, their validity is questionable because the clusterings they
promote can sometimes be meaningless. External measures, on the other hand,
compare the algorithms' outputs to the reference, ground truth groupings that
are provided by experts. The commonly-used classical partition similarity
scores, such as the normalised mutual information, Fowlkes-Mallows, or adjusted
Rand index, might not possess all the desirable properties, e.g., they do not
identify pathological edge cases correctly. Furthermore, they are not nicely
interpretable: it is hard to say what a score of 0.8 really means. Its
behaviour might also vary as the number of true clusters changes. This makes
comparing clustering algorithms across many benchmark datasets difficult. To
remedy this, we propose and analyse a new measure: an asymmetric version of the
optimal set-matching accuracy. It is corrected for chance and the
imbalancedness of cluster sizes.
- Abstract(参考訳): 最高のクラスタリングアルゴリズムは存在しませんし、そうでもありませんが、特定のタスクタイプでうまく機能しているものを特定し、体系的に失望しているものを取り除きたいと思っています。
クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。
内部測度は得られた分割の異なる側面、例えばクラスタのコンパクト性や点分離性の平均度を定量化する。
しかし、その妥当性は疑わしい。なぜなら、彼らが促進するクラスタリングは時々意味をなさない可能性があるからだ。
一方、外部尺度では、アルゴリズムの出力を、専門家が提供した基準である根拠真理グループと比較する。
正規化された相互情報、フクロウケマロ、調整されたランド指数など、一般的に使われる古典的分割類似度スコアは、すべての望ましい特性を有しないかもしれない。
さらに、それらはうまく解釈できない:0.8のスコアが何を意味するかは言いづらい。
その振る舞いは、真のクラスタ数の変化によっても変化する可能性がある。
これにより、多くのベンチマークデータセット間のクラスタリングアルゴリズムの比較が困難になる。
これを解決するために、最適セットマッチング精度の非対称バージョンである新しい尺度を提案し、分析する。
確率とクラスタサイズの不均衡を補正する。
関連論文リスト
- Optimal Algorithms for Decentralized Stochastic Variational Inequalities [113.43047601775453]
この作業は、ますます重要になるが十分に理解されていない分散的な設定に集中する。
通信と局所的な繰り返しの両方の下位境界を示し、これらの下位境界に一致する最適なアルゴリズムを構築する。
我々のアルゴリズムは、分散化されたケースだけでなく、決定論的で非分散的な文献でも利用できる。
論文 参考訳(メタデータ) (2022-02-06T13:14:02Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Shift of Pairwise Similarities for Data Clustering [7.462336024223667]
正規化項がクラスタの2乗サイズの和である場合を考察し、ペアの類似性の適応正規化に一般化する。
これは、ペアの類似性を(適切に)シフトさせ、それらのうちのいくつかを負にする可能性がある。
そこで我々は,新しいクラスタリング問題を解くために,高速な理論的収束率を持つ効率的な局所探索最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-25T16:55:07Z) - J-Score: A Robust Measure of Clustering Accuracy [8.33909555155795]
クラスタリング分析は、データセットに隠された構造を発見し、それらを非結合クラスタに分割する。
現在のクラスタリング精度測定には、未整合クラスタを見渡すこと、過剰なクラスタへのバイアス、不安定なベースライン、難解な解釈が含まれる。
これらの問題に対処する新しい精度尺度 J-score を提案する。
論文 参考訳(メタデータ) (2021-09-03T04:43:52Z) - Applying Semi-Automated Hyperparameter Tuning for Clustering Algorithms [0.0]
本研究では,クラスタリング問題に対する半自動ハイパーパラメータチューニングのためのフレームワークを提案する。
グリッド検索を使用して一連のグラフを開発し、メトリクスを解釈しやすくし、より効率的なドメイン固有評価に使用できる。
予備的な結果は、内部メトリクスが、開発されたクラスタのセマンティックな品質をキャプチャできないことを示している。
論文 参考訳(メタデータ) (2021-08-25T05:48:06Z) - Near-Optimal Comparison Based Clustering [7.930242839366938]
提案手法は, ほぼ最適な比較数を用いて, 植え付けクラスタリングを復元できることを示す。
理論的知見を実証的に検証し,実データ上での手法の良好な振る舞いを実証する。
論文 参考訳(メタデータ) (2020-10-08T12:03:13Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - A generalized Bayes framework for probabilistic clustering [3.3194866396158]
k平均とその変種のようなロスベースのクラスタリング手法は、データ内のグループを見つけるための標準ツールである。
混合モデルに基づくモデルベースのクラスタリングは代替手段を提供するが、そのような手法は計算上の問題に直面し、カーネルの選択に対して大きな感度を持つ。
本稿では,これらの2つのパラダイムをGibs後続法を用いてブリッジする一般化ベイズフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T18:49:32Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。