論文の概要: Significance-Based Categorical Data Clustering
- arxiv url: http://arxiv.org/abs/2211.03956v1
- Date: Tue, 8 Nov 2022 02:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 17:14:53.278079
- Title: Significance-Based Categorical Data Clustering
- Title(参考訳): 意味に基づくカテゴリーデータクラスタリング
- Authors: Lianyu Hu, Mudi Jiang, Yan Liu, Zengyou He
- Abstract要約: 我々は、カテゴリデータクラスタリングにおいて、重要度に基づく目的関数として機能するテスト統計を導出するために、確率比テストを使用する。
モンテカルロ探索手法を用いて重要度に基づく目的関数を最適化する新しいクラスタリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.421725101465365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although numerous algorithms have been proposed to solve the categorical data
clustering problem, how to access the statistical significance of a set of
categorical clusters remains unaddressed. To fulfill this void, we employ the
likelihood ratio test to derive a test statistic that can serve as a
significance-based objective function in categorical data clustering.
Consequently, a new clustering algorithm is proposed in which the
significance-based objective function is optimized via a Monte Carlo search
procedure. As a by-product, we can further calculate an empirical $p$-value to
assess the statistical significance of a set of clusters and develop an
improved gap statistic for estimating the cluster number. Extensive
experimental studies suggest that our method is able to achieve comparable
performance to state-of-the-art categorical data clustering algorithms.
Moreover, the effectiveness of such a significance-based formulation on
statistical cluster validation and cluster number estimation is demonstrated
through comprehensive empirical results.
- Abstract(参考訳): 分類的データクラスタリングの問題を解決するために多くのアルゴリズムが提案されているが、分類的クラスタの統計的意義にアクセスする方法はまだ未定である。
この空白を満たすために、分類データクラスタリングにおいて重要度に基づく目的関数として機能するテスト統計を導出するために、確率比検定を用いる。
その結果,モンテカルロ探索手法を用いて重要度に基づく目的関数を最適化する新たなクラスタリングアルゴリズムが提案されている。
副産物として、経験的な$p$-valueを計算し、クラスタの集合の統計的意義を評価し、クラスタ数を推定するための改良されたギャップ統計を作成することができる。
広範な実験により,本手法は最先端データクラスタリングアルゴリズムに匹敵する性能が得られることが示唆された。
さらに, 統計的クラスタ検証およびクラスタ数推定における有意性に基づく定式化の有効性を包括的実験により実証した。
関連論文リスト
- Hierarchical and Density-based Causal Clustering [6.082022112101251]
本稿では,既成のアルゴリズムを用いて簡易かつ容易に実装可能なプラグイン推定器を提案する。
さらに,それらの収束率について検討し,因果クラスタリングの付加コストが基本的に結果回帰関数の推定誤差であることを示す。
論文 参考訳(メタデータ) (2024-11-02T14:01:04Z) - From A-to-Z Review of Clustering Validation Indices [4.08908337437878]
我々は、最も一般的なクラスタリングアルゴリズムを用いて、内部および外部クラスタリング検証指標の性能をレビューし、評価する。
内部クラスタリング検証と外部クラスタリング検証の両方の機能を調べるための分類フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T13:52:02Z) - Interpretable Clustering with the Distinguishability Criterion [0.4419843514606336]
本稿では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,分散可能性基準と呼ばれるグローバルな基準を提案する。
本稿では、分散可能性基準と多くの一般的なクラスタリング手順を統合した損失関数に基づく計算フレームワークを提案する。
シミュレーション研究および実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T16:38:15Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - A testing-based approach to assess the clusterability of categorical
data [6.7937877930001775]
TestCatは、分析的な$p$-valueで分類データのクラスタ性を評価するためのテストベースのアプローチである。
提案手法をベンチマーク分類データセットに適用することにより,TestCatが数値データに対してそれらの解より優れていることを示す。
論文 参考訳(メタデータ) (2023-07-14T13:50:00Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Gradient Based Clustering [72.15857783681658]
本稿では,クラスタリングの品質を計測するコスト関数の勾配を用いて,距離に基づくクラスタリングの一般的な手法を提案する。
アプローチは反復的な2段階の手順(クラスタ割り当てとクラスタセンターのアップデートの代替)であり、幅広い機能に適用できる。
論文 参考訳(メタデータ) (2022-02-01T19:31:15Z) - A review of systematic selection of clustering algorithms and their
evaluation [0.0]
本稿では,クラスタリングアルゴリズムとそれに対応する検証概念の体系的選択ロジックを同定することを目的とする。
目標は、潜在的なユーザが自分のニーズと基盤となるデータクラスタリングの問題の性質に最も適したアルゴリズムを選択できるようにすることだ。
論文 参考訳(メタデータ) (2021-06-24T07:01:46Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。