論文の概要: Statistical power for cluster analysis
- arxiv url: http://arxiv.org/abs/2003.00381v3
- Date: Tue, 25 May 2021 15:21:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 12:56:47.081395
- Title: Statistical power for cluster analysis
- Title(参考訳): クラスター分析のための統計力
- Authors: E. S. Dalmaijer, C. L. Nord, and D. E. Astle
- Abstract要約: クラスターアルゴリズムは、生物医学研究でますます人気がある。
シミュレーションにより,共通解析におけるパワーと精度を推定する。
我々は,大規模なサブグループ分離が期待される場合にのみ,クラスタ分析を適用することを推奨する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cluster algorithms are increasingly popular in biomedical research due to
their compelling ability to identify discrete subgroups in data, and their
increasing accessibility in mainstream software. While guidelines exist for
algorithm selection and outcome evaluation, there are no firmly established
ways of computing a priori statistical power for cluster analysis. Here, we
estimated power and accuracy for common analysis pipelines through simulation.
We varied subgroup size, number, separation (effect size), and covariance
structure. We then subjected generated datasets to dimensionality reduction
(none, multidimensional scaling, or UMAP) and cluster algorithms (k-means,
agglomerative hierarchical clustering with Ward or average linkage and
Euclidean or cosine distance, HDBSCAN). Finally, we compared the statistical
power of discrete (k-means), "fuzzy" (c-means), and finite mixture modelling
approaches (which include latent profile and latent class analysis). We found
that outcomes were driven by large effect sizes or the accumulation of many
smaller effects across features, and were unaffected by differences in
covariance structure. Sufficient statistical power was achieved with relatively
small samples (N=20 per subgroup), provided cluster separation is large
({\Delta}=4). Fuzzy clustering provided a more parsimonious and powerful
alternative for identifying separable multivariate normal distributions,
particularly those with slightly lower centroid separation ({\Delta}=3).
Overall, we recommend that researchers 1) only apply cluster analysis when
large subgroup separation is expected, 2) aim for sample sizes of N=20 to N=30
per expected subgroup, 3) use multidimensional scaling to improve cluster
separation, and 4) use fuzzy clustering or finite mixture modelling approaches
that are more powerful and more parsimonious with partially overlapping
multivariate normal distributions.
- Abstract(参考訳): クラスタアルゴリズムは、データ内の個別のサブグループを識別する能力と、主要なソフトウェアにおけるアクセシビリティの増大により、バイオメディカルな研究で人気が高まっている。
アルゴリズムの選択と結果評価のためのガイドラインは存在するが、クラスタ分析の事前統計パワーを計算する方法は確立されていない。
ここでは,一般的な解析パイプラインの電力と精度をシミュレーションにより推定する。
サブグループサイズ, 数, 分離(効果サイズ), 共分散構造を変化させた。
生成されたデータセットを次元縮小(none, multidimensional scaling, umap)およびクラスタアルゴリズム(k-means, agglomerative hierarchical clustering with ward or average linkage, euclidean or cosine distance, hdbscan)とした。
最後に,離散 (k-means), "fuzzy" (c-means) および有限混合モデル (潜在プロファイルと潜在クラス分析を含む) の統計力を比較した。
その結果,大きな効果サイズや,機能にまたがる多数の小さな効果の蓄積が寄与し,共分散構造の違いに影響されないことがわかった。
比較的小さなサンプル (n=20 サブグループ) で十分な統計力を達成できたが、クラスター分離が大きい ({\delta}=4) 。
ファジィクラスタリングは、分離可能な多変量正規分布、特にわずかに低い中心核分離({\delta}=3)を特定するためのより分岐的で強力な代替手段となった。
全体として 研究者は
1)大規模なサブグループ分離が期待される場合にのみクラスタ分析を適用する。
2) n=20からn=30のサンプルサイズを想定する。
3)クラスタ分離を改善するために多次元スケーリングを使用する。
4) ファジィクラスタリングまたは有限混合モデリングアプローチはより強力で、部分的に重複する多変量正規分布と相似である。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - A simulation study of cluster search algorithms in data set generated by Gaussian mixture models [0.0]
本研究では,ガウス混合モデル (GMM) が生成できる様々なケースにおいて,セントロイドおよびモデルに基づくクラスタ探索アルゴリズムについて検討した。
その結果, ユークリッド距離に基づくクラスタ分割基準は, クラスタが重なり合うと不合理な決定を下すことがわかった。
論文 参考訳(メタデータ) (2024-07-27T07:47:25Z) - Causal K-Means Clustering [5.087519744951637]
Causal k-Means Clusteringは、広く使われているk-means Clusteringアルゴリズムを利用して、未知の部分群構造を明らかにする。
既成のアルゴリズムを用いて簡易かつ容易に実装可能なプラグイン推定器を提案する。
提案手法は,複数の治療レベルを有する近代的な結果研究に特に有用である。
論文 参考訳(メタデータ) (2024-05-05T23:59:51Z) - Linear time Evidence Accumulation Clustering with KMeans [0.0]
この研究は、平均的なリンククラスタリングの振る舞いを模倣するトリックを記述する。
分割の密度を効率よく計算する方法を見つけ、二次的な複雑さから線形的な複雑さへのコストを削減した。
k平均結果は、計算コストを低く保ちながら、NMIの観点からは、最先端の技術に匹敵する。
論文 参考訳(メタデータ) (2023-11-15T14:12:59Z) - Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Subspace clustering in high-dimensions: Phase transitions \&
Statistical-to-Computational gap [24.073221004661427]
部分空間クラスタリングを研究するための単純なモデルは、高次元の$k$-ガウス混合モデルである。
広帯域な高次元状態における統計的に最適な再構成誤差を正確に評価する。
論文 参考訳(メタデータ) (2022-05-26T17:47:35Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。