論文の概要: Toward Generalizable Machine Learning Models in Speech, Language, and
Hearing Sciences: Estimating Sample Size and Reducing Overfitting
- arxiv url: http://arxiv.org/abs/2308.11197v3
- Date: Fri, 22 Dec 2023 17:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 18:19:56.187927
- Title: Toward Generalizable Machine Learning Models in Speech, Language, and
Hearing Sciences: Estimating Sample Size and Reducing Overfitting
- Title(参考訳): 音声・言語・聴覚科学における一般化可能な機械学習モデルに向けて : サンプルサイズの推定とオーバーフィッティングの低減
- Authors: Hamzeh Ghasemzadeh, Robert E. Hillman, Daryush D. Mehta
- Abstract要約: 本研究ではモンテカルロシミュレーションを用いて,採用したクロスバリデーション法と特徴の離散パワーの相互作用を定量化する。
単一ホールドアウトで必要なサンプルサイズは、ネストしたクロスバリデーションを使用する場合、必要なものよりも50%高い可能性がある。
- 参考スコア(独自算出の注目度): 1.8416014644193064
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study's first purpose is to provide quantitative evidence that would
incentivize researchers to instead use the more robust method of nested
cross-validation. The second purpose is to present methods and MATLAB codes for
doing power analysis for ML-based analysis during the design of a study. Monte
Carlo simulations were used to quantify the interactions between the employed
cross-validation method, the discriminative power of features, the
dimensionality of the feature space, and the dimensionality of the model. Four
different cross-validations (single holdout, 10-fold, train-validation-test,
and nested 10-fold) were compared based on the statistical power and
statistical confidence of the ML models. Distributions of the null and
alternative hypotheses were used to determine the minimum required sample size
for obtaining a statistically significant outcome ({\alpha}=0.05,
1-\b{eta}=0.8). Statistical confidence of the model was defined as the
probability of correct features being selected and hence being included in the
final model. Our analysis showed that the model generated based on the single
holdout method had very low statistical power and statistical confidence and
that it significantly overestimated the accuracy. Conversely, the nested
10-fold cross-validation resulted in the highest statistical confidence and the
highest statistical power, while providing an unbiased estimate of the
accuracy. The required sample size with a single holdout could be 50% higher
than what would be needed if nested cross-validation were used. Confidence in
the model based on nested cross-validation was as much as four times higher
than the confidence in the single holdout-based model. A computational model,
MATLAB codes, and lookup tables are provided to assist researchers with
estimating the sample size during the design of their future studies.
- Abstract(参考訳): この研究の第一の目的は、研究者がより堅牢なネストクロスバリデーション法を使う動機となる定量的証拠を提供することである。
第2の目的は,MLに基づく解析のための電力分析を行うための方法とMATLABコードを提供することである。
モンテカルロシミュレーションは、使用済みのクロスバリデーション法、特徴の判別力、特徴空間の次元、モデルの次元の間の相互作用を定量化するために用いられた。
MLモデルの統計力と統計的信頼度に基づいて,4種類のクロスバリデーション(シングルホールトアウト,10倍,列車バリデーションテスト,ネスト10倍)を比較した。
統計学的に有意な結果を得るために最小のサンプルサイズを決定するためにヌル仮説と代替仮説の分布を用いた({\alpha}=0.05, 1-\b{eta}=0.8)。
モデルの統計的信頼度は、正しい特徴が選択され、最終モデルに含まれる確率として定義された。
分析の結果,単一ホールドアウト法に基づくモデルは非常に低い統計的パワーと統計的信頼性を示し,精度を著しく過大評価した。
逆に、ネストした10倍のクロスバリデーションは、最も高い統計信頼と最も高い統計力をもたらし、その正確さの偏りのない推定を提供した。
単一のホールドアウトで必要なサンプルサイズは、ネストされたクロスバリデーションを使用する場合に必要なものよりも50%高い。
ネストされたクロスバリデーションに基づくモデルの信頼度は、単一のホールドアウトベースのモデルの信頼度より4倍も高かった。
計算モデル、MATLAB符号およびルックアップテーブルは、将来の研究の設計において、サンプルサイズを推定する研究者を支援するために提供される。
関連論文リスト
- Predictive Performance Test based on the Exhaustive Nested Cross-Validation for High-dimensional data [7.62566998854384]
クロスバリデーションは、予測誤差の推定、正規化パラメータのチューニング、最も適切な予測モデルの選択など、いくつかのタスクに使用される。
K-foldクロスバリデーションは一般的なCV法であるが、その制限はリスク推定がデータの分割に大きく依存していることである。
本研究は, 完全ネスト型クロスバリデーションに基づく新たな予測性能試験と有効信頼区間を提案する。
論文 参考訳(メタデータ) (2024-08-06T12:28:16Z) - Modelling Sampling Distributions of Test Statistics with Autograd [0.0]
条件付き1次元サンプリング分布をモデル化する手法が,確率密度比法の代替となるかを検討する。
比較的単純で効果的なニューラルネットワークモデルは、様々な方法で予測の不確実性が定量化される。
論文 参考訳(メタデータ) (2024-05-03T21:34:12Z) - Bootstrapping the Cross-Validation Estimate [3.5159221757909656]
クロスバリデーションは予測モデルの性能を評価するために広く用いられている手法である。
見積もりに関連する不確実性を正確に定量化することが不可欠である。
本稿では,クロスバリデーション推定の標準誤差を迅速に推定する高速ブートストラップ法を提案する。
論文 参考訳(メタデータ) (2023-07-01T07:50:54Z) - Model-agnostic out-of-distribution detection using combined statistical
tests [15.27980070479021]
本稿では,学習された生成モデルを用いた分布外検出のための簡易な手法を提案する。
古典的パラメトリックテスト(ラオのスコアテスト)と最近導入された定性テストを組み合わせる。
その単純さと汎用性にもかかわらず、これらの手法はモデル固有のアウト・オブ・ディストリビューション検出アルゴリズムと競合することがある。
論文 参考訳(メタデータ) (2022-03-02T13:32:09Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - On Statistical Efficiency in Learning [37.08000833961712]
モデルフィッティングとモデル複雑性のバランスをとるためのモデル選択の課題に対処する。
モデルの複雑さを順次拡大し、選択安定性を高め、コストを削減するオンラインアルゴリズムを提案します。
実験の結果, 提案手法は予測能力が高く, 計算コストが比較的低いことがわかった。
論文 参考訳(メタデータ) (2020-12-24T16:08:29Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Density of States Estimation for Out-of-Distribution Detection [69.90130863160384]
DoSEは状態推定器の密度である。
我々は、他の教師なしOOD検出器に対するDoSEの最先端性能を実証する。
論文 参考訳(メタデータ) (2020-06-16T16:06:25Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。