論文の概要: How little data do we need for patient-level prediction?
- arxiv url: http://arxiv.org/abs/2008.07361v1
- Date: Fri, 14 Aug 2020 11:00:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:11:31.504575
- Title: How little data do we need for patient-level prediction?
- Title(参考訳): 患者レベルの予測にはどの程度のデータが必要か?
- Authors: Luis H. John, Jan A. Kors, Jenna M. Reps, Patrick B. Ryan, Peter R.
Rijnbeek
- Abstract要約: サンプルサイズが予測性能およびモデル複雑性に及ぼす影響を実験的に評価した。
その結果,ほとんどの場合,利用可能なデータのうち,全データセット上で開発されたデータの性能に近いモデルを生成するのに十分なデータしか得られなかったことが示唆された。
- 参考スコア(独自算出の注目度): 4.837457223810131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: Provide guidance on sample size considerations for developing
predictive models by empirically establishing the adequate sample size, which
balances the competing objectives of improving model performance and reducing
model complexity as well as computational requirements.
Materials and Methods: We empirically assess the effect of sample size on
prediction performance and model complexity by generating learning curves for
81 prediction problems in three large observational health databases, requiring
training of 17,248 prediction models. The adequate sample size was defined as
the sample size for which the performance of a model equalled the maximum model
performance minus a small threshold value.
Results: The adequate sample size achieves a median reduction of the number
of observations between 9.5% and 78.5% for threshold values between 0.001 and
0.02. The median reduction of the number of predictors in the models at the
adequate sample size varied between 8.6% and 68.3%, respectively.
Discussion: Based on our results a conservative, yet significant, reduction
in sample size and model complexity can be estimated for future prediction
work. Though, if a researcher is willing to generate a learning curve a much
larger reduction of the model complexity may be possible as suggested by a
large outcome-dependent variability.
Conclusion: Our results suggest that in most cases only a fraction of the
available data was sufficient to produce a model close to the performance of
one developed on the full data set, but with a substantially reduced model
complexity.
- Abstract(参考訳): 目的: 適切なサンプルサイズを実証的に確立し,モデル性能の向上とモデル複雑性の低減と計算要件のバランスをとることにより,予測モデル開発のためのサンプルサイズ考慮に関するガイダンスを提供する。
材料と方法:3つの大規模観測健康データベースにおける81の予測問題に対する学習曲線を生成し、17,248の予測モデルのトレーニングを要し,サンプルサイズが予測性能とモデル複雑性に及ぼす影響を実証的に評価した。
適切なサンプルサイズは,モデルの性能が最大モデル性能と等しく,しきい値が小さくなるサンプルサイズとして定義した。
結果: 適切な試料サイズは、0.001から0.02の閾値に対して、9.5%から78.5%までの観測数の中央値の減少を達成する。
適切なサンプルサイズでのモデルにおける予測値の中央値の減少は、それぞれ8.6%と68.3%であった。
考察:本研究の結果から,今後の予測作業において,サンプルサイズとモデル複雑性の保守的かつ重要な削減が期待できる。
しかし、研究者が学習曲線を生成しようとすると、結果に依存した大きな変数によって示唆されるように、モデルの複雑さが大幅に減少する可能性がある。
結論: 結論: ほとんどの場合, 利用可能なデータのほんの一部が, 完全なデータセット上で開発されたモデルに近い性能のモデルを作成するのに十分であるが, モデルの複雑さは大幅に減少している。
関連論文リスト
- Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - Robustness Analysis of Deep Learning Models for Population Synthesis [5.9106199000537645]
複数のデータセットに対するロバスト性を評価するため, 深部生成モデルのブートストラップ信頼区間を示す。
これらのモデルは、2008年、2013年、2018年のモントリオール・オリジン・デスチネーション・サーベイの複数の旅行日記に実装されている。
その結果,CTGANの予測誤差は,複数のデータセットに対する堅牢性を示す信頼区間が狭かった。
論文 参考訳(メタデータ) (2022-11-23T22:55:55Z) - Stability of clinical prediction models developed using statistical or
machine learning methods [0.5482532589225552]
臨床予測モデルは、複数の予測器の値に基づいて、個人の特定の健康結果のリスクを推定する。
多くのモデルは、モデルとその予測(推定リスク)の不安定性につながる小さなデータセットを使用して開発されている。
モデルの推定リスクの不安定性は、しばしばかなりのものであり、新しいデータにおける予測の誤校正として現れます。
論文 参考訳(メタデータ) (2022-11-02T11:55:28Z) - Are Sample-Efficient NLP Models More Robust? [90.54786862811183]
サンプル効率(所定のID精度に到達するために必要なデータ量)とロバスト性(OOD評価モデルの評価方法)の関係について検討する。
高いサンプル効率は、いくつかのモデリング介入やタスクにおいて、より平均的なOODロバスト性にのみ相関するが、それ以外は相関しない。
これらの結果から,サンプル効率向上のための汎用手法は,データセットとタスクに依存した汎用的なOODロバスト性向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T17:54:59Z) - Sampling To Improve Predictions For Underrepresented Observations In
Imbalanced Data [0.0]
データ不均衡は、表現不足な観測におけるモデルの予測性能に悪影響を及ぼす。
本研究では,過去の生産データに基づいてトレーニングされたモデルの性能向上を目標として,この不均衡に対応するためのサンプリングを提案する。
我々はペニシリン生産の先進的なシミュレーションから得られたバイオ医薬品製造データセットに本手法を適用した。
論文 参考訳(メタデータ) (2021-11-17T12:16:54Z) - Model-based metrics: Sample-efficient estimates of predictive model
subpopulation performance [11.994417027132807]
健康状態の表示、診断、予測のために現在一般的に開発されている機械学習モデル$-$は、様々なパフォーマンス指標で評価される。
サブ集団のパフォーマンスメトリクスは、通常、そのサブグループのデータのみを使用して計算されるため、より小さなグループに対する分散推定が高くなる。
本稿では,予測モデルスコアの条件分布を記述した評価モデル$-$を用いて,モデルベース計量(MBM)の推定値を生成する。
論文 参考訳(メタデータ) (2021-04-25T19:06:34Z) - Contextual Dropout: An Efficient Sample-Dependent Dropout Module [60.63525456640462]
ドロップアウトは、ディープニューラルネットワークのトレーニングプロセスを正規化するシンプルで効果的なモジュールとして実証されています。
単純でスケーラブルなサンプル依存型ドロップアウトモジュールとして,効率的な構造設計によるコンテキスト型ドロップアウトを提案する。
提案手法は,不確実性推定の精度と品質の両面において,ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2021-03-06T19:30:32Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z) - The Limits to Learning a Diffusion Model [5.6801303763150655]
本稿では,単純な拡散モデルの推定のために,最初のサンプル複雑性の低い境界を与える。
拡散のかなり遅くまでそのようなモデルを学ぶことを期待できないことを示す。
結果は,正確な予測の課題を定式化し,付加的なデータソースの導入の重要性を強調した。
論文 参考訳(メタデータ) (2020-06-11T12:47:16Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。