論文の概要: A simulation study of cluster search algorithms in data set generated by Gaussian mixture models
- arxiv url: http://arxiv.org/abs/2407.19199v1
- Date: Sat, 27 Jul 2024 07:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 19:21:07.455466
- Title: A simulation study of cluster search algorithms in data set generated by Gaussian mixture models
- Title(参考訳): ガウス混合モデルによるデータセットにおけるクラスタ探索アルゴリズムのシミュレーション研究
- Authors: Ryosuke Motegi, Yoichi Seki,
- Abstract要約: 本研究では,ガウス混合モデル (GMM) が生成できる様々なケースにおいて,セントロイドおよびモデルに基づくクラスタ探索アルゴリズムについて検討した。
その結果, ユークリッド距離に基づくクラスタ分割基準は, クラスタが重なり合うと不合理な決定を下すことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining the number of clusters is a fundamental issue in data clustering. Several algorithms have been proposed, including centroid-based algorithms using the Euclidean distance and model-based algorithms using a mixture of probability distributions. Among these, greedy algorithms for searching the number of clusters by repeatedly splitting or merging clusters have advantages in terms of computation time for problems with large sample sizes. However, studies comparing these methods in systematic evaluation experiments still need to be included. This study examines centroid- and model-based cluster search algorithms in various cases that Gaussian mixture models (GMMs) can generate. The cases are generated by combining five factors: dimensionality, sample size, the number of clusters, cluster overlap, and covariance type. The results show that some cluster-splitting criteria based on Euclidean distance make unreasonable decisions when clusters overlap. The results also show that model-based algorithms are insensitive to covariance type and cluster overlap compared to the centroid-based method if the sample size is sufficient. Our cluster search implementation codes are available at https://github.com/lipryou/searchClustK
- Abstract(参考訳): クラスタ数を決定することは、データクラスタリングにおける根本的な問題である。
ユークリッド距離を用いたセントロイドアルゴリズムや確率分布の混合を用いたモデルベースアルゴリズムなど、いくつかのアルゴリズムが提案されている。
これらのうち、クラスタの分割やマージを繰り返すことでクラスタ数を探索する欲求アルゴリズムは、大きなサンプルサイズを持つ問題に対する計算時間という面で有利である。
しかし、これらの手法を体系的な評価実験で比較する研究は、いまだに含まれていない。
本研究では,ガウス混合モデル (GMM) が生成できる様々なケースにおいて,セントロイドおよびモデルに基づくクラスタ探索アルゴリズムについて検討した。
ケースは、次元性、サンプルサイズ、クラスタの数、クラスタオーバーラップ、共分散タイプという5つの要素を組み合わせることで生成される。
その結果, ユークリッド距離に基づくクラスタ分割基準は, クラスタが重なり合うと不合理な決定を下すことがわかった。
また,モデルに基づくアルゴリズムは,サンプルサイズが十分であれば,Centroid法と比較して,共分散型やクラスタオーバーラップに敏感であることを示す。
クラスタ検索の実装コードはhttps://github.com/lipryou/searchClustKで利用可能です。
関連論文リスト
- Linear time Evidence Accumulation Clustering with KMeans [0.0]
この研究は、平均的なリンククラスタリングの振る舞いを模倣するトリックを記述する。
分割の密度を効率よく計算する方法を見つけ、二次的な複雑さから線形的な複雑さへのコストを削減した。
k平均結果は、計算コストを低く保ちながら、NMIの観点からは、最先端の技術に匹敵する。
論文 参考訳(メタデータ) (2023-11-15T14:12:59Z) - Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - A Computational Theory and Semi-Supervised Algorithm for Clustering [0.0]
半教師付きクラスタリングアルゴリズムを提案する。
クラスタリング法のカーネルは、Mohammadの異常検出アルゴリズムである。
結果は、合成および実世界のデータセットで示される。
論文 参考訳(メタデータ) (2023-06-12T09:15:58Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - K-ARMA Models for Clustering Time Series Data [4.345882429229813]
K-Meansアルゴリズムのモデルベース一般化を用いた時系列データのクラスタリング手法を提案する。
クラスタリングアルゴリズムは,不確実な偏差基準を用いて,アウトレーヤに対して頑健にすることができることを示す。
我々は,時系列クラスタリングタスクにおいて,本手法が既存の手法と競合することを示す実データ実験を行った。
論文 参考訳(メタデータ) (2022-06-30T18:16:11Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Statistical power for cluster analysis [0.0]
クラスターアルゴリズムは、生物医学研究でますます人気がある。
シミュレーションにより,共通解析におけるパワーと精度を推定する。
我々は,大規模なサブグループ分離が期待される場合にのみ,クラスタ分析を適用することを推奨する。
論文 参考訳(メタデータ) (2020-03-01T02:43:15Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。