論文の概要: Evaluating and Validating Cluster Results
- arxiv url: http://arxiv.org/abs/2007.08034v1
- Date: Wed, 15 Jul 2020 23:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:10:42.062454
- Title: Evaluating and Validating Cluster Results
- Title(参考訳): クラスタ結果の評価と検証
- Authors: Anupriya Vysala and Dr. Joseph Gomes
- Abstract要約: 本稿では、IRISデータセットのクラスタ結果に対して、外部評価と内部評価の両方を行う。
内部性能測定には、Silhouette IndexとSum of Square Errorsが使用される。
最後に、統計的ツールとして、クラスタリング結果と元のデータ内の観測結果の分布の視覚的表現を周波数分布法を用いて比較、提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering is the technique to partition data according to their
characteristics. Data that are similar in nature belong to the same cluster
[1]. There are two types of evaluation methods to evaluate clustering quality.
One is an external evaluation where the truth labels in the data sets are known
in advance and the other is internal evaluation in which the evaluation is done
with data set itself without true labels. In this paper, both external
evaluation and internal evaluation are performed on the cluster results of the
IRIS dataset. In the case of external evaluation Homogeneity, Correctness and
V-measure scores are calculated for the dataset. For internal performance
measures, the Silhouette Index and Sum of Square Errors are used. These
internal performance measures along with the dendrogram (graphical tool from
hierarchical Clustering) are used first to validate the number of clusters.
Finally, as a statistical tool, we used the frequency distribution method to
compare and provide a visual representation of the distribution of observations
within a clustering result and the original data.
- Abstract(参考訳): クラスタリングはその特性に応じてデータを分割するテクニックである。
本質的に類似したデータは、同じクラスタ [1] に属する。
クラスタリングの品質を評価するための評価方法は2種類ある。
1つは、データセット内の真理ラベルが事前に知られている外部評価であり、もう1つは、真のラベルなしでデータセット自身で評価を行う内部評価である。
本稿では、IRISデータセットのクラスタ結果に対して、外部評価と内部評価の両方を行う。
外部評価均質性の場合、データセットに対して正確性およびv測定スコアを算出する。
内部性能測定には、Silhouette IndexとSum of Square Errorsが使用される。
これらの内部パフォーマンス測定とデンドログラム(階層クラスタリングの図式ツール)は、まずクラスタ数を検証するために使用される。
最後に、統計的ツールとして、クラスタリング結果と元のデータ内の観測結果の分布の視覚的表現を比較するために、周波数分布法を用いた。
関連論文リスト
- ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - From A-to-Z Review of Clustering Validation Indices [4.08908337437878]
我々は、最も一般的なクラスタリングアルゴリズムを用いて、内部および外部クラスタリング検証指標の性能をレビューし、評価する。
内部クラスタリング検証と外部クラスタリング検証の両方の機能を調べるための分類フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T13:52:02Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - A testing-based approach to assess the clusterability of categorical
data [6.7937877930001775]
TestCatは、分析的な$p$-valueで分類データのクラスタ性を評価するためのテストベースのアプローチである。
提案手法をベンチマーク分類データセットに適用することにより,TestCatが数値データに対してそれらの解より優れていることを示す。
論文 参考訳(メタデータ) (2023-07-14T13:50:00Z) - Algorithm-Agnostic Interpretations for Clustering [0.0]
縮小次元におけるクラスタリング結果を説明するために,アルゴリズムに依存しない解釈法を提案する。
クラスタリングにおける置換機能の重要性は、特徴値のシャッフルに基づく一般的なフレームワークを表している。
すべてのメソッドは、任意のクラスタリングアルゴリズムを使って、ソフトラベルやハードラベルを通じてインスタンスを再割り当てすることができる。
論文 参考訳(メタデータ) (2022-09-21T18:08:40Z) - Sanity Check for External Clustering Validation Benchmarks using
Internal Validation Measures [8.808021343665319]
ラベル付きデータセットに基づくクラスタリング手法のベンチマークにおける信頼性の欠如に対処する。
本稿では,データセット間でのCLMの比較を可能にする,データセット間の内部測度を生成するための原則的手法を提案する。
論文 参考訳(メタデータ) (2022-09-20T23:32:18Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Contrastive Clustering [57.71729650297379]
本稿では,インスタンスレベルのコントラスト学習を明示的に行うContrastive Clustering (CC)を提案する。
特にCCは、CIFAR-10(CIFAR-100)データセット上で0.705(0.431)のNMIを達成しており、最高のベースラインと比較して最大19%(39%)のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-09-21T08:54:40Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。