論文の概要: Clustering Approaches for Mixed-Type Data: A Comparative Study
- arxiv url: http://arxiv.org/abs/2511.19755v1
- Date: Mon, 24 Nov 2025 22:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.190693
- Title: Clustering Approaches for Mixed-Type Data: A Comparative Study
- Title(参考訳): 混合型データに対するクラスタリング手法の比較研究
- Authors: Badih Ghattas, Alvaro Sanchez San-Benito,
- Abstract要約: 混在型データのクラスタリングは、このタスクに適合するアプローチがほとんどないため、課題である。
本研究は,これらの手法の現状を考察し,様々なシミュレーションモデルを用いて比較する。
KAMILA, LCM, k-prototypes は, 調整型ランドインデックス (ARI) に関して, 最高の性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering is widely used in unsupervised learning to find homogeneous groups of observations within a dataset. However, clustering mixed-type data remains a challenge, as few existing approaches are suited for this task. This study presents the state-of-the-art of these approaches and compares them using various simulation models. The compared methods include the distance-based approaches k-prototypes, PDQ, and convex k-means, and the probabilistic methods KAy-means for MIxed LArge data (KAMILA), the mixture of Bayesian networks (MBNs), and latent class model (LCM). The aim is to provide insights into the behavior of different methods across a wide range of scenarios by varying some experimental factors such as the number of clusters, cluster overlap, sample size, dimension, proportion of continuous variables in the dataset, and clusters' distribution. The degree of cluster overlap and the proportion of continuous variables in the dataset and the sample size have a significant impact on the observed performances. When strong interactions exist between variables alongside an explicit dependence on cluster membership, none of the evaluated methods demonstrated satisfactory performance. In our experiments KAMILA, LCM, and k-prototypes exhibited the best performance, with respect to the adjusted rand index (ARI). All the methods are available in R.
- Abstract(参考訳): クラスタリングは、データセット内で均質な観察グループを見つけるために、教師なし学習で広く使われている。
しかし、このタスクには既存のアプローチがほとんど適していないため、混合型データのクラスタリングは依然として課題である。
本研究は,これらの手法の現状を考察し,様々なシミュレーションモデルを用いて比較する。
比較手法には、距離ベースアプローチのk-prototype、PDQ、凸k-means、Mixed LArgeデータ(KAMILA)のKAy-means、ベイズネットワーク(MBN)の混合、潜在クラスモデル(LCM)などがある。
目的は、クラスタの数、クラスタオーバーラップ、サンプルサイズ、寸法、データセット内の連続変数の割合、クラスタの分布など、いくつかの実験的な要素を変化させることで、さまざまなシナリオにおけるさまざまなメソッドの挙動に関する洞察を提供することである。
クラスタの重複度とデータセット内の連続変数の割合とサンプルサイズは、観察されたパフォーマンスに大きな影響を与える。
クラスタメンバシップへの明示的な依存を伴う変数間の強い相互作用が存在する場合、評価されたいずれの手法も満足できる性能は示さなかった。
KAMILA, LCM, k-prototypes は, 調整したランド指数 (ARI) に関して, 最高の性能を示した。
すべてのメソッドは R で利用可能である。
関連論文リスト
- Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - clusterBMA: Bayesian model averaging for clustering [1.2021605201770345]
本稿では、教師なしクラスタリングアルゴリズムの結果の重み付きモデル平均化を可能にするクラスタBMAを提案する。
クラスタリング内部検証基準を用いて、各モデルの結果の重み付けに使用される後続モデル確率の近似を開発する。
シミュレーションデータ上での他のアンサンブルクラスタリングメソッドのパフォーマンスに加えて、クラスタBMAは平均クラスタへの確率的アロケーションを含むユニークな機能を提供する。
論文 参考訳(メタデータ) (2022-09-09T04:55:20Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z) - Blocked Clusterwise Regression [0.0]
我々は、各ユニットが複数の潜伏変数を持つことを可能にすることで、離散的非観測的不均一性に対する以前のアプローチを一般化する。
我々は,クラスタの過剰な数のクラスタリングの理論に寄与し,この設定に対する新たな収束率を導出する。
論文 参考訳(メタデータ) (2020-01-29T23:29:31Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。