論文の概要: A testing-based approach to assess the clusterability of categorical
data
- arxiv url: http://arxiv.org/abs/2307.07346v1
- Date: Fri, 14 Jul 2023 13:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 13:54:27.291558
- Title: A testing-based approach to assess the clusterability of categorical
data
- Title(参考訳): 分類データのクラスタビリティ評価のためのテストベースアプローチ
- Authors: Lianyu Hu, Junjie Dong, Mudi Jiang, Yan Liu, Zengyou He
- Abstract要約: TestCatは、分析的な$p$-valueで分類データのクラスタ性を評価するためのテストベースのアプローチである。
提案手法をベンチマーク分類データセットに適用することにより,TestCatが数値データに対してそれらの解より優れていることを示す。
- 参考スコア(独自算出の注目度): 6.7937877930001775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The objective of clusterability evaluation is to check whether a clustering
structure exists within the data set. As a crucial yet often-overlooked issue
in cluster analysis, it is essential to conduct such a test before applying any
clustering algorithm. If a data set is unclusterable, any subsequent clustering
analysis would not yield valid results. Despite its importance, the majority of
existing studies focus on numerical data, leaving the clusterability evaluation
issue for categorical data as an open problem. Here we present TestCat, a
testing-based approach to assess the clusterability of categorical data in
terms of an analytical $p$-value. The key idea underlying TestCat is that
clusterable categorical data possess many strongly correlated attribute pairs
and hence the sum of chi-squared statistics of all attribute pairs is employed
as the test statistic for $p$-value calculation. We apply our method to a set
of benchmark categorical data sets, showing that TestCat outperforms those
solutions based on existing clusterability evaluation methods for numeric data.
To the best of our knowledge, our work provides the first way to effectively
recognize the clusterability of categorical data in a statistically sound
manner.
- Abstract(参考訳): クラスタビリティ評価の目的は、データセット内にクラスタリング構造が存在するかどうかを確認することである。
クラスタ分析において重要でありながら見過ごされがちな問題であるため、クラスタリングアルゴリズムを適用する前にそのようなテストを実施することが不可欠である。
データセットがクラスタ化できない場合、その後のクラスタリング分析では有効な結果が得られない。
その重要性にもかかわらず、既存の研究の大半は数値データに重点を置いており、分類データのクラスタビリティ評価問題をオープン問題として残している。
ここでは、分析的な$p$-valueの観点から分類データのクラスタビリティを評価するテストベースのアプローチであるTestCatを紹介する。
testcatの基礎となる重要なアイデアは、クラスタ可能な分類データは、多くの強い相関のある属性ペアを持ち、従ってすべての属性ペアのchi-squared統計の和は、$p$-value計算のテスト統計として使われる。
提案手法をベンチマーク分類データセットに適用し,既存のクラスタビリティ評価手法により,TestCatがそれらの解より優れていることを示す。
我々の知識を最大限に活用するために、我々の研究は、統計的に健全な方法で分類データのクラスタビリティを効果的に認識する方法を提供する。
関連論文リスト
- Order Is All You Need for Categorical Data Clustering [29.264630563297466]
名目価値属性からなる分類データは、知識発見やデータマイニングのタスクにおいてユビキタスである。
適切に定義された距離空間がないため、分類データの分布は直感的に理解することが難しい。
本稿では,属性値間の順序関係がクラスタリング精度の決定的要因であることを示す。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。
クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文 参考訳(メタデータ) (2024-07-31T08:29:35Z) - From A-to-Z Review of Clustering Validation Indices [4.08908337437878]
我々は、最も一般的なクラスタリングアルゴリズムを用いて、内部および外部クラスタリング検証指標の性能をレビューし、評価する。
内部クラスタリング検証と外部クラスタリング検証の両方の機能を調べるための分類フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T13:52:02Z) - Interpretable Clustering with the Distinguishability Criterion [0.4419843514606336]
本稿では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,分散可能性基準と呼ばれるグローバルな基準を提案する。
本稿では、分散可能性基準と多くの一般的なクラスタリング手順を統合した損失関数に基づく計算フレームワークを提案する。
シミュレーション研究および実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T16:38:15Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Significance-Based Categorical Data Clustering [7.421725101465365]
我々は、カテゴリデータクラスタリングにおいて、重要度に基づく目的関数として機能するテスト統計を導出するために、確率比テストを使用する。
モンテカルロ探索手法を用いて重要度に基づく目的関数を最適化する新しいクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-08T02:06:31Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Evaluating and Validating Cluster Results [0.0]
本稿では、IRISデータセットのクラスタ結果に対して、外部評価と内部評価の両方を行う。
内部性能測定には、Silhouette IndexとSum of Square Errorsが使用される。
最後に、統計的ツールとして、クラスタリング結果と元のデータ内の観測結果の分布の視覚的表現を周波数分布法を用いて比較、提供する。
論文 参考訳(メタデータ) (2020-07-15T23:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。