論文の概要: How little data do we need for patient-level prediction?
- arxiv url: http://arxiv.org/abs/2008.07361v1
- Date: Fri, 14 Aug 2020 11:00:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:11:31.504575
- Title: How little data do we need for patient-level prediction?
- Title(参考訳): 患者レベルの予測にはどの程度のデータが必要か?
- Authors: Luis H. John, Jan A. Kors, Jenna M. Reps, Patrick B. Ryan, Peter R.
Rijnbeek
- Abstract要約: サンプルサイズが予測性能およびモデル複雑性に及ぼす影響を実験的に評価した。
その結果,ほとんどの場合,利用可能なデータのうち,全データセット上で開発されたデータの性能に近いモデルを生成するのに十分なデータしか得られなかったことが示唆された。
- 参考スコア(独自算出の注目度): 4.837457223810131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective: Provide guidance on sample size considerations for developing
predictive models by empirically establishing the adequate sample size, which
balances the competing objectives of improving model performance and reducing
model complexity as well as computational requirements.
Materials and Methods: We empirically assess the effect of sample size on
prediction performance and model complexity by generating learning curves for
81 prediction problems in three large observational health databases, requiring
training of 17,248 prediction models. The adequate sample size was defined as
the sample size for which the performance of a model equalled the maximum model
performance minus a small threshold value.
Results: The adequate sample size achieves a median reduction of the number
of observations between 9.5% and 78.5% for threshold values between 0.001 and
0.02. The median reduction of the number of predictors in the models at the
adequate sample size varied between 8.6% and 68.3%, respectively.
Discussion: Based on our results a conservative, yet significant, reduction
in sample size and model complexity can be estimated for future prediction
work. Though, if a researcher is willing to generate a learning curve a much
larger reduction of the model complexity may be possible as suggested by a
large outcome-dependent variability.
Conclusion: Our results suggest that in most cases only a fraction of the
available data was sufficient to produce a model close to the performance of
one developed on the full data set, but with a substantially reduced model
complexity.
- Abstract(参考訳): 目的: 適切なサンプルサイズを実証的に確立し,モデル性能の向上とモデル複雑性の低減と計算要件のバランスをとることにより,予測モデル開発のためのサンプルサイズ考慮に関するガイダンスを提供する。
材料と方法:3つの大規模観測健康データベースにおける81の予測問題に対する学習曲線を生成し、17,248の予測モデルのトレーニングを要し,サンプルサイズが予測性能とモデル複雑性に及ぼす影響を実証的に評価した。
適切なサンプルサイズは,モデルの性能が最大モデル性能と等しく,しきい値が小さくなるサンプルサイズとして定義した。
結果: 適切な試料サイズは、0.001から0.02の閾値に対して、9.5%から78.5%までの観測数の中央値の減少を達成する。
適切なサンプルサイズでのモデルにおける予測値の中央値の減少は、それぞれ8.6%と68.3%であった。
考察:本研究の結果から,今後の予測作業において,サンプルサイズとモデル複雑性の保守的かつ重要な削減が期待できる。
しかし、研究者が学習曲線を生成しようとすると、結果に依存した大きな変数によって示唆されるように、モデルの複雑さが大幅に減少する可能性がある。
結論: 結論: ほとんどの場合, 利用可能なデータのほんの一部が, 完全なデータセット上で開発されたモデルに近い性能のモデルを作成するのに十分であるが, モデルの複雑さは大幅に減少している。
関連論文リスト
- Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。
限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Stability of clinical prediction models developed using statistical or
machine learning methods [0.5482532589225552]
臨床予測モデルは、複数の予測器の値に基づいて、個人の特定の健康結果のリスクを推定する。
多くのモデルは、モデルとその予測(推定リスク)の不安定性につながる小さなデータセットを使用して開発されている。
モデルの推定リスクの不安定性は、しばしばかなりのものであり、新しいデータにおける予測の誤校正として現れます。
論文 参考訳(メタデータ) (2022-11-02T11:55:28Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Sampling To Improve Predictions For Underrepresented Observations In
Imbalanced Data [0.0]
データ不均衡は、表現不足な観測におけるモデルの予測性能に悪影響を及ぼす。
本研究では,過去の生産データに基づいてトレーニングされたモデルの性能向上を目標として,この不均衡に対応するためのサンプリングを提案する。
我々はペニシリン生産の先進的なシミュレーションから得られたバイオ医薬品製造データセットに本手法を適用した。
論文 参考訳(メタデータ) (2021-11-17T12:16:54Z) - On the explainability of hospitalization prediction on a large COVID-19
patient dataset [45.82374977939355]
我々は、新型コロナウイルス陽性の米国の患者の大規模な(110ドル以上)コホートでの入院を予測するために、さまざまなAIモデルを開発した。
高いデータアンバランスにもかかわらず、モデルは平均精度0.96-0.98 (0.75-0.85)、リコール0.96-0.98 (0.74-0.85)、F_score097-0.98 (0.79-0.83)に達する。
論文 参考訳(メタデータ) (2021-10-28T10:23:38Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z) - Impact of Medical Data Imprecision on Learning Results [9.379890125442333]
医療応用におけるインプレクションが予測結果に与える影響について検討した。
トレーニング済みのモデルを用いて、患者の甲状腺機能亢進症の将来状態を予測する。
論文 参考訳(メタデータ) (2020-07-24T06:54:57Z) - The Limits to Learning a Diffusion Model [5.6801303763150655]
本稿では,単純な拡散モデルの推定のために,最初のサンプル複雑性の低い境界を与える。
拡散のかなり遅くまでそのようなモデルを学ぶことを期待できないことを示す。
結果は,正確な予測の課題を定式化し,付加的なデータソースの導入の重要性を強調した。
論文 参考訳(メタデータ) (2020-06-11T12:47:16Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。