論文の概要: J-Score: A Robust Measure of Clustering Accuracy
- arxiv url: http://arxiv.org/abs/2109.01306v1
- Date: Fri, 3 Sep 2021 04:43:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 20:44:01.762769
- Title: J-Score: A Robust Measure of Clustering Accuracy
- Title(参考訳): j-score:クラスタリング精度のロバストな測定
- Authors: Navid Ahmadinejad, Li Liu
- Abstract要約: クラスタリング分析は、データセットに隠された構造を発見し、それらを非結合クラスタに分割する。
現在のクラスタリング精度測定には、未整合クラスタを見渡すこと、過剰なクラスタへのバイアス、不安定なベースライン、難解な解釈が含まれる。
これらの問題に対処する新しい精度尺度 J-score を提案する。
- 参考スコア(独自算出の注目度): 8.33909555155795
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Background. Clustering analysis discovers hidden structures in a data set by
partitioning them into disjoint clusters. Robust accuracy measures that
evaluate the goodness of clustering results are critical for algorithm
development and model diagnosis. Common problems of current clustering accuracy
measures include overlooking unmatched clusters, biases towards excessive
clusters, unstable baselines, and difficult interpretation. In this study, we
presented a novel accuracy measure, J-score, that addresses these issues.
Methods. Given a data set with known class labels, J-score quantifies how
well the hypothetical clusters produced by clustering analysis recover the true
classes. It starts with bidirectional set matching to identify the
correspondence between true classes and hypothetical clusters based on Jaccard
index. It then computes two weighted sums of Jaccard indices measuring the
reconciliation from classes to clusters and vice versa. The final J-score is
the harmonic mean of the two weighted sums.
Results. Via simulation studies, we evaluated the performance of J-score and
compared with existing measures. Our results show that J-score is effective in
distinguishing partition structures that differ only by unmatched clusters,
rewarding correct inference of class numbers, addressing biases towards
excessive clusters, and having a relatively stable baseline. The simplicity of
its calculation makes the interpretation straightforward. It is a valuable tool
complementary to other accuracy measures. We released an R/jScore package
implementing the algorithm.
- Abstract(参考訳): 背景。
クラスタ分析は、データセット内の隠れた構造を分離したクラスタに分割することで発見する。
クラスタリング結果の良否を評価するロバストな精度測定は,アルゴリズム開発とモデル診断に不可欠である。
現在のクラスタリング精度測定の一般的な問題は、不一致のクラスタを見渡すこと、過剰なクラスタへのバイアス、不安定なベースライン、そして難しい解釈である。
本研究では,これらの問題に対処する新しい精度尺度 J-score を提案する。
方法。
既知のクラスラベルを持つデータセットが与えられた場合、Jスコアはクラスタリング分析によって生成された仮説的クラスタが真のクラスをいかに回復するかを定量化する。
これは双方向の集合マッチングから始まり、ジャカード指数に基づいて真クラスと仮説クラスタの対応を識別する。
次にクラスからクラスタへの再結合を測定するjaccardインデックスの重み付き和を2つ計算し、その逆を行う。
最後のJスコアは、2つの重み付き和の調和平均である。
結果。
シミュレーション研究により,Jスコアの性能評価を行い,既存の測定値と比較した。
以上の結果から,Jスコアは未整合クラスタのみが異なるパーティション構造を識別し,クラス数の正しい推論に報いるとともに,過剰クラスタに対するバイアスに対処し,比較的安定したベースラインを持つことが示唆された。
その計算の単純さは解釈を簡単にする。
他の精度測定と相補的な貴重なツールである。
我々はアルゴリズムを実装したR/jScoreパッケージをリリースした。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Linear time Evidence Accumulation Clustering with KMeans [0.0]
この研究は、平均的なリンククラスタリングの振る舞いを模倣するトリックを記述する。
分割の密度を効率よく計算する方法を見つけ、二次的な複雑さから線形的な複雑さへのコストを削減した。
k平均結果は、計算コストを低く保ちながら、NMIの観点からは、最先端の技術に匹敵する。
論文 参考訳(メタデータ) (2023-11-15T14:12:59Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Algorithm-Agnostic Interpretations for Clustering [0.0]
縮小次元におけるクラスタリング結果を説明するために,アルゴリズムに依存しない解釈法を提案する。
クラスタリングにおける置換機能の重要性は、特徴値のシャッフルに基づく一般的なフレームワークを表している。
すべてのメソッドは、任意のクラスタリングアルゴリズムを使って、ソフトラベルやハードラベルを通じてインスタンスを再割り当てすることができる。
論文 参考訳(メタデータ) (2022-09-21T18:08:40Z) - Normalised clustering accuracy: An asymmetric external cluster validity measure [2.900810893770134]
クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。
本稿では、一般的に使われている古典的分割類似度スコアは、いくつかの望ましい性質を欠いていると論じる。
我々は,最適セットマッチング精度のバージョンである新しい尺度を提案し,分析する。
論文 参考訳(メタデータ) (2022-09-07T05:08:34Z) - SSDBCODI: Semi-Supervised Density-Based Clustering with Outliers
Detection Integrated [1.8444322599555096]
クラスタリング分析は、機械学習における重要なタスクの1つだ。
クラスタリングクラスタリングのパフォーマンスが、異常値によって著しく損なわれる可能性があるため、アルゴリズムは、異常値検出のプロセスを組み込もうとする。
我々は,半教師付き検出素子であるSSDBCODIを提案する。
論文 参考訳(メタデータ) (2022-08-10T21:06:38Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Predictive K-means with local models [0.028675177318965035]
予測クラスタリングは、2つの世界のベストを獲得しようとします。
この手法を用いて2つの新しいアルゴリズムを提案し、予測性能に競争力があることを様々なデータセットで示す。
論文 参考訳(メタデータ) (2020-12-16T10:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。