論文の概要: Significance-Based Categorical Data Clustering
- arxiv url: http://arxiv.org/abs/2211.03956v1
- Date: Tue, 8 Nov 2022 02:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 17:14:53.278079
- Title: Significance-Based Categorical Data Clustering
- Title(参考訳): 意味に基づくカテゴリーデータクラスタリング
- Authors: Lianyu Hu, Mudi Jiang, Yan Liu, Zengyou He
- Abstract要約: 我々は、カテゴリデータクラスタリングにおいて、重要度に基づく目的関数として機能するテスト統計を導出するために、確率比テストを使用する。
モンテカルロ探索手法を用いて重要度に基づく目的関数を最適化する新しいクラスタリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.421725101465365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although numerous algorithms have been proposed to solve the categorical data
clustering problem, how to access the statistical significance of a set of
categorical clusters remains unaddressed. To fulfill this void, we employ the
likelihood ratio test to derive a test statistic that can serve as a
significance-based objective function in categorical data clustering.
Consequently, a new clustering algorithm is proposed in which the
significance-based objective function is optimized via a Monte Carlo search
procedure. As a by-product, we can further calculate an empirical $p$-value to
assess the statistical significance of a set of clusters and develop an
improved gap statistic for estimating the cluster number. Extensive
experimental studies suggest that our method is able to achieve comparable
performance to state-of-the-art categorical data clustering algorithms.
Moreover, the effectiveness of such a significance-based formulation on
statistical cluster validation and cluster number estimation is demonstrated
through comprehensive empirical results.
- Abstract(参考訳): 分類的データクラスタリングの問題を解決するために多くのアルゴリズムが提案されているが、分類的クラスタの統計的意義にアクセスする方法はまだ未定である。
この空白を満たすために、分類データクラスタリングにおいて重要度に基づく目的関数として機能するテスト統計を導出するために、確率比検定を用いる。
その結果,モンテカルロ探索手法を用いて重要度に基づく目的関数を最適化する新たなクラスタリングアルゴリズムが提案されている。
副産物として、経験的な$p$-valueを計算し、クラスタの集合の統計的意義を評価し、クラスタ数を推定するための改良されたギャップ統計を作成することができる。
広範な実験により,本手法は最先端データクラスタリングアルゴリズムに匹敵する性能が得られることが示唆された。
さらに, 統計的クラスタ検証およびクラスタ数推定における有意性に基づく定式化の有効性を包括的実験により実証した。
関連論文リスト
- A structured regression approach for evaluating model performance across
intersectional subgroups [57.84444882410051]
分散評価は、AIフェアネスアセスメントにおける中心的なタスクであり、異なるサブグループ間でAIシステムのパフォーマンスを測定することを目的としている。
本稿では,システム性能評価の信頼性を実証する,非凝集評価のための構造化回帰手法を提案する。
我々は2つの公開データセットといくつかの半合成データの変種についてアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Robust and Automatic Data Clustering: Dirichlet Process meets
Median-of-Means [18.3248037914529]
本稿では,モデルに基づく手法とセントロイド方式の原理を統合することにより,効率的かつ自動的なクラスタリング手法を提案する。
クラスタリング誤差の上限に関する統計的保証は,既存のクラスタリングアルゴリズムよりも提案手法の利点を示唆している。
論文 参考訳(メタデータ) (2023-11-26T19:01:15Z) - Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - A testing-based approach to assess the clusterability of categorical
data [6.7937877930001775]
TestCatは、分析的な$p$-valueで分類データのクラスタ性を評価するためのテストベースのアプローチである。
提案手法をベンチマーク分類データセットに適用することにより,TestCatが数値データに対してそれらの解より優れていることを示す。
論文 参考訳(メタデータ) (2023-07-14T13:50:00Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Cluster-level Group Representativity Fairness in $k$-means Clustering [3.420467786581458]
クラスタリングアルゴリズムは、異なるグループが異なるクラスタ内で不利になるようにクラスタを生成することができる。
我々は,古典的アルゴリズムに先駆けて,セントロイドクラスタリングパラダイムに基づくクラスタリングアルゴリズムを開発した。
本手法はクラスタレベルの表現性フェアネスを,クラスタのコヒーレンスに低い影響で向上させるのに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-29T22:02:28Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - A review of systematic selection of clustering algorithms and their
evaluation [0.0]
本稿では,クラスタリングアルゴリズムとそれに対応する検証概念の体系的選択ロジックを同定することを目的とする。
目標は、潜在的なユーザが自分のニーズと基盤となるデータクラスタリングの問題の性質に最も適したアルゴリズムを選択できるようにすることだ。
論文 参考訳(メタデータ) (2021-06-24T07:01:46Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。