論文の概要: From A-to-Z Review of Clustering Validation Indices
- arxiv url: http://arxiv.org/abs/2407.20246v1
- Date: Thu, 18 Jul 2024 13:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 00:56:24.435631
- Title: From A-to-Z Review of Clustering Validation Indices
- Title(参考訳): クラスタリング検証指標のA-to-Zレビューから
- Authors: Bryar A. Hassan, Noor Bahjat Tayfor, Alla A. Hassan, Aram M. Ahmed, Tarik A. Rashid, Naz N. Abdalla,
- Abstract要約: 我々は、最も一般的なクラスタリングアルゴリズムを用いて、内部および外部クラスタリング検証指標の性能をレビューし、評価する。
内部クラスタリング検証と外部クラスタリング検証の両方の機能を調べるための分類フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.08908337437878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data clustering involves identifying latent similarities within a dataset and organizing them into clusters or groups. The outcomes of various clustering algorithms differ as they are susceptible to the intrinsic characteristics of the original dataset, including noise and dimensionality. The effectiveness of such clustering procedures directly impacts the homogeneity of clusters, underscoring the significance of evaluating algorithmic outcomes. Consequently, the assessment of clustering quality presents a significant and complex endeavor. A pivotal aspect affecting clustering validation is the cluster validity metric, which aids in determining the optimal number of clusters. The main goal of this study is to comprehensively review and explain the mathematical operation of internal and external cluster validity indices, but not all, to categorize these indices and to brainstorm suggestions for future advancement of clustering validation research. In addition, we review and evaluate the performance of internal and external clustering validation indices on the most common clustering algorithms, such as the evolutionary clustering algorithm star (ECA*). Finally, we suggest a classification framework for examining the functionality of both internal and external clustering validation measures regarding their ideal values, user-friendliness, responsiveness to input data, and appropriateness across various fields. This classification aids researchers in selecting the appropriate clustering validation measure to suit their specific requirements.
- Abstract(参考訳): データクラスタリングでは、データセット内の遅延類似性を識別し、それらをクラスタやグループに編成する。
様々なクラスタリングアルゴリズムの結果は、ノイズや次元を含む元のデータセットの本質的な特性に影響を受けやすいため、異なる。
このようなクラスタリング手法の有効性はクラスタの均一性に直接影響を与え、アルゴリズム的な結果を評価することの重要性を強調している。
その結果、クラスタリング品質の評価は、重要かつ複雑な取り組みとなる。
クラスタの検証に影響を与える重要な側面は、クラスタの最適な数を決定するのに役立つクラスタの妥当性指標である。
本研究の主な目的は、内部および外部クラスタの妥当性指標の数学的操作を網羅的に検証し、説明し、これらの指標を分類し、クラスタリング検証研究の今後の進歩に向けたブレインストーミング提案を行うことである。
さらに,進化的クラスタリングアルゴリズムスター (ECA*) など,最も一般的なクラスタリングアルゴリズムを用いて,内部および外部クラスタリング検証指標の性能評価を行った。
最後に,入力データに対するユーザフレンドリさ,応答性,各分野における適切性について,内部クラスタリング検証と外部クラスタリング検証の両方の機能を検討するための分類フレームワークを提案する。
この分類は、研究者が特定の要求に合うように適切なクラスタリング検証尺度を選択するのに役立つ。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - A3S: A General Active Clustering Method with Pairwise Constraints [66.74627463101837]
A3Sは、適応クラスタリングアルゴリズムによって得られる初期クラスタ結果に対して、戦略的にアクティブクラスタリングを調整する。
さまざまな実世界のデータセットにわたる広範な実験において、A3Sは、人間のクエリを著しく少なくして、望ましい結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T13:37:03Z) - Interpretable Clustering with the Distinguishability Criterion [0.4419843514606336]
本稿では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,分散可能性基準と呼ばれるグローバルな基準を提案する。
本稿では、分散可能性基準と多くの一般的なクラスタリング手順を統合した損失関数に基づく計算フレームワークを提案する。
シミュレーション研究および実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T16:38:15Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Cluster-level Group Representativity Fairness in $k$-means Clustering [3.420467786581458]
クラスタリングアルゴリズムは、異なるグループが異なるクラスタ内で不利になるようにクラスタを生成することができる。
我々は,古典的アルゴリズムに先駆けて,セントロイドクラスタリングパラダイムに基づくクラスタリングアルゴリズムを開発した。
本手法はクラスタレベルの表現性フェアネスを,クラスタのコヒーレンスに低い影響で向上させるのに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-29T22:02:28Z) - Significance-Based Categorical Data Clustering [7.421725101465365]
我々は、カテゴリデータクラスタリングにおいて、重要度に基づく目的関数として機能するテスト統計を導出するために、確率比テストを使用する。
モンテカルロ探索手法を用いて重要度に基づく目的関数を最適化する新しいクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-08T02:06:31Z) - A review of systematic selection of clustering algorithms and their
evaluation [0.0]
本稿では,クラスタリングアルゴリズムとそれに対応する検証概念の体系的選択ロジックを同定することを目的とする。
目標は、潜在的なユーザが自分のニーズと基盤となるデータクラスタリングの問題の性質に最も適したアルゴリズムを選択できるようにすることだ。
論文 参考訳(メタデータ) (2021-06-24T07:01:46Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - The Area Under the ROC Curve as a Measure of Clustering Quality [0.0]
Area Under the Curve for Clustering (AUCC) はクラスタリングの品質の内/相対的な尺度である。
AUCC はベーカー・アンド・ヒューバート (1975) によるガンマ基準の線型変換である。
論文 参考訳(メタデータ) (2020-09-04T21:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。