論文の概要: Tutorial: a priori estimation of sample size, effect size, and
statistical power for cluster analysis, latent class analysis, and
multivariate mixture models
- arxiv url: http://arxiv.org/abs/2309.00866v1
- Date: Sat, 2 Sep 2023 08:48:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 00:34:49.081517
- Title: Tutorial: a priori estimation of sample size, effect size, and
statistical power for cluster analysis, latent class analysis, and
multivariate mixture models
- Title(参考訳): チュートリアル:クラスター分析、潜在クラス分析、多変量混合モデルにおけるサンプルサイズ、効果サイズ、統計パワーの事前推定
- Authors: Edwin S Dalmaijer
- Abstract要約: このチュートリアルは、サブグループを特定する分析のためのサンプルサイズと効果サイズを決定するロードマップを提供する。
研究者が選択した領域における効果サイズに対する期待を形式化するための手順を紹介します。
次に、サブグループ分析における最小サンプルサイズを確立する方法について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Before embarking on data collection, researchers typically compute how many
individual observations they should do. This is vital for doing studies with
sufficient statistical power, and often a cornerstone in study
pre-registrations and grant applications. For traditional statistical tests,
one would typically determine an acceptable level of statistical power,
(gu)estimate effect size, and then use both values to compute the required
sample size. However, for analyses that identify subgroups, statistical power
is harder to establish. Once sample size reaches a sufficient threshold, effect
size is primarily determined by the number of measured features and the
underlying subgroup separation. As a consequence, a priory computations of
statistical power are notoriously complex. In this tutorial, I will provide a
roadmap to determining sample size and effect size for analyses that identify
subgroups. First, I introduce a procedure that allows researchers to formalise
their expectations about effect sizes in their domain of choice, and use this
to compute the minimally required number of measured variables. Next, I outline
how to establish the minimum sample size in subgroup analyses. Finally, I use
simulations to provide a reference table for the most popular subgroup
analyses: k-means, Ward agglomerative hierarchical clustering, c-means fuzzy
clustering, latent class analysis, latent profile analysis, and Gaussian
mixture modelling. The table shows the minimum numbers of observations per
expected subgroup (sample size) and features (measured variables) to achieve
acceptable statistical power, and can be readily used in study design.
- Abstract(参考訳): データ収集を始める前に、研究者は通常、個々の観察回数を計算する。
これは十分な統計力を持つ研究を行うのに不可欠であり、しばしば事前登録や認可研究の基盤となる。
従来の統計テストでは、一般に許容される統計的パワーのレベル、(gu)推定効果のサイズを決定し、両方の値を使って必要なサンプルサイズを計算する。
しかし、サブグループを特定する分析では、統計力の確立が困難である。
サンプルサイズが十分なしきい値に達すると、効果の大きさは測定された特徴の数と下層のサブグループ分離によって決定される。
その結果、統計力の優先計算は、明らかに複雑である。
本チュートリアルでは、サブグループを特定する分析のためのサンプルサイズと効果サイズを決定するロードマップを提供する。
まず、研究者が選択した分野における効果サイズに関する期待を定式化し、これを用いて測定された変数の最小数を計算する手順を紹介します。
次に、サブグループ分析における最小サンプルサイズを確立する方法について概説する。
最後に,k-means, Ward agglomerative hierarchical clustering, c-means fuzzy clustering, latent class analysis, latent profile analysis, Gaussian mix modellingという,最も一般的なサブグループ分析の基準表を提供するためにシミュレーションを利用する。
この表は、許容可能な統計力を達成するための、期待される部分群(サンプルサイズ)と特徴(測定変数)に対する最小の観測数を示し、研究設計において容易に使用できる。
関連論文リスト
- Sample Size in Natural Language Processing within Healthcare Research [0.14865681381012494]
事前収集されたデータの十分なコーパスの欠如は、新しい研究のためにサンプルサイズを決定する際の制限要因となる可能性がある。
本稿では、医療領域におけるテキスト分類タスクのサンプルサイズを推奨することで、この問題に対処しようとする。
論文 参考訳(メタデータ) (2023-09-05T13:42:43Z) - Toward Generalizable Machine Learning Models in Speech, Language, and
Hearing Sciences: Estimating Sample Size and Reducing Overfitting [1.8416014644193064]
本研究ではモンテカルロシミュレーションを用いて,採用したクロスバリデーション法と特徴の離散パワーの相互作用を定量化する。
単一ホールドアウトで必要なサンプルサイズは、ネストしたクロスバリデーションを使用する場合、必要なものよりも50%高い可能性がある。
論文 参考訳(メタデータ) (2023-08-22T05:14:42Z) - A Statistical View of Column Subset Selection [47.65143789184956]
大規模データセットから代表変数の小さなサブセットを選択することの問題点を考察する。
提案手法では,(1)元のデータセットからの要約統計データのみを用いてCSSを効率的に実行する方法,(2)欠落データや検閲データの存在下でCSSを実行する方法,(3)仮説テストフレームワークでCSSのサブセットサイズを選択する方法を示す。
論文 参考訳(メタデータ) (2023-07-24T15:42:33Z) - Statistical and Computational Phase Transitions in Group Testing [73.55361918807883]
本研究の目的は、希少な疾患を患っているk人の集団を同定することである。
個々人のテストを割り当てるための2つの異なる単純なランダムな手順を考える。
論文 参考訳(メタデータ) (2022-06-15T16:38:50Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Model-based metrics: Sample-efficient estimates of predictive model
subpopulation performance [11.994417027132807]
健康状態の表示、診断、予測のために現在一般的に開発されている機械学習モデル$-$は、様々なパフォーマンス指標で評価される。
サブ集団のパフォーマンスメトリクスは、通常、そのサブグループのデータのみを使用して計算されるため、より小さなグループに対する分散推定が高くなる。
本稿では,予測モデルスコアの条件分布を記述した評価モデル$-$を用いて,モデルベース計量(MBM)の推定値を生成する。
論文 参考訳(メタデータ) (2021-04-25T19:06:34Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Computationally efficient sparse clustering [67.95910835079825]
我々はPCAに基づく新しいクラスタリングアルゴリズムの有限サンプル解析を行う。
ここでは,ミニマックス最適誤クラスタ化率を,体制$|theta infty$で達成することを示す。
論文 参考訳(メタデータ) (2020-05-21T17:51:30Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z) - Statistical power for cluster analysis [0.0]
クラスターアルゴリズムは、生物医学研究でますます人気がある。
シミュレーションにより,共通解析におけるパワーと精度を推定する。
我々は,大規模なサブグループ分離が期待される場合にのみ,クラスタ分析を適用することを推奨する。
論文 参考訳(メタデータ) (2020-03-01T02:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。