Fugu-MT 論文翻訳(概要): How little data do we need for patient-level prediction?

論文の概要: How little data do we need for patient-level prediction?

arxiv url: http://arxiv.org/abs/2008.07361v1
Date: Fri, 14 Aug 2020 11:00:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-30 17:11:31.504575
Title: How little data do we need for patient-level prediction?
Title（参考訳）: 患者レベルの予測にはどの程度のデータが必要か?
Authors: Luis H. John, Jan A. Kors, Jenna M. Reps, Patrick B. Ryan, Peter R. Rijnbeek
Abstract要約: サンプルサイズが予測性能およびモデル複雑性に及ぼす影響を実験的に評価した。その結果,ほとんどの場合,利用可能なデータのうち,全データセット上で開発されたデータの性能に近いモデルを生成するのに十分なデータしか得られなかったことが示唆された。
参考スコア（独自算出の注目度）: 4.837457223810131
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Objective: Provide guidance on sample size considerations for developing predictive models by empirically establishing the adequate sample size, which balances the competing objectives of improving model performance and reducing model complexity as well as computational requirements. Materials and Methods: We empirically assess the effect of sample size on prediction performance and model complexity by generating learning curves for 81 prediction problems in three large observational health databases, requiring training of 17,248 prediction models. The adequate sample size was defined as the sample size for which the performance of a model equalled the maximum model performance minus a small threshold value. Results: The adequate sample size achieves a median reduction of the number of observations between 9.5% and 78.5% for threshold values between 0.001 and 0.02. The median reduction of the number of predictors in the models at the adequate sample size varied between 8.6% and 68.3%, respectively. Discussion: Based on our results a conservative, yet significant, reduction in sample size and model complexity can be estimated for future prediction work. Though, if a researcher is willing to generate a learning curve a much larger reduction of the model complexity may be possible as suggested by a large outcome-dependent variability. Conclusion: Our results suggest that in most cases only a fraction of the available data was sufficient to produce a model close to the performance of one developed on the full data set, but with a substantially reduced model complexity.
Abstract（参考訳）: 目的: 適切なサンプルサイズを実証的に確立し,モデル性能の向上とモデル複雑性の低減と計算要件のバランスをとることにより,予測モデル開発のためのサンプルサイズ考慮に関するガイダンスを提供する。材料と方法:3つの大規模観測健康データベースにおける81の予測問題に対する学習曲線を生成し、17,248の予測モデルのトレーニングを要し,サンプルサイズが予測性能とモデル複雑性に及ぼす影響を実証的に評価した。適切なサンプルサイズは,モデルの性能が最大モデル性能と等しく,しきい値が小さくなるサンプルサイズとして定義した。結果: 適切な試料サイズは、0.001から0.02の閾値に対して、9.5%から78.5%までの観測数の中央値の減少を達成する。適切なサンプルサイズでのモデルにおける予測値の中央値の減少は、それぞれ8.6%と68.3%であった。考察:本研究の結果から,今後の予測作業において,サンプルサイズとモデル複雑性の保守的かつ重要な削減が期待できる。しかし、研究者が学習曲線を生成しようとすると、結果に依存した大きな変数によって示唆されるように、モデルの複雑さが大幅に減少する可能性がある。結論: 結論: ほとんどの場合, 利用可能なデータのほんの一部が, 完全なデータセット上で開発されたモデルに近い性能のモデルを作成するのに十分であるが, モデルの複雑さは大幅に減少している。

関連論文リスト

On Arbitrary Predictions from Equally Valid Models [49.56463611078044]
モデル多重性(英: Model multiplicity)とは、同じ患者に対して矛盾する予測を認める複数の機械学習モデルを指す。たとえ小さなアンサンブルであっても、実際は予測的多重性を緩和・緩和できることを示す。
論文参考訳（メタデータ） (2025-07-25T16:15:59Z)
DataDecide: How to Predict Best Pretraining Data with Small Experiments [67.95896457895404]
私たちはDataDecideのモデル、データ、評価を公開しています。最大100Bトークン,最大1Bパラメータのモデルサイズ,および3つのランダムシードを用いて,25コーパスにわたる事前学習実験を行った。
論文参考訳（メタデータ） (2025-04-15T17:02:15Z)
Do Contemporary Causal Inference Models Capture Real-World Heterogeneity? Findings from a Large-Scale Benchmark [39.06952509635041]
本研究では,条件平均処理効果(CATE)推定アルゴリズムを大規模ベンチマークで評価し,予期せぬ結果を示す。 CATE推定の62%は、自明なゼロエフェクト予測器よりも平均正方形誤差(MSE)が高く、非効率であることがわかった。これらの結果は、現在のCATEモデルにおける重要な課題を浮き彫りにして、より広範な評価と方法論的改善の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-10-09T16:04:40Z)
Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文参考訳（メタデータ） (2024-09-10T07:34:19Z)
DiffPuter: Empowering Diffusion Models for Missing Data Imputation [56.48119008663155]
本稿ではDiffPuterについて紹介する。DiffPuterは、データ計算の欠如に対する期待最大化(EM)アルゴリズムと組み合わせた、カスタマイズされた拡散モデルである。我々の理論的解析は、DiffPuterのトレーニングステップがデータ密度の最大推定値に対応することを示している。 DiffPuterは,最も競争力のある既存手法と比較して,MAEが6.94%,RMSEが4.78%向上した。
論文参考訳（メタデータ） (2024-05-31T08:35:56Z)
Learning Sample Difficulty from Pre-trained Models for Reliable Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文参考訳（メタデータ） (2023-04-20T07:29:23Z)
A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文参考訳（メタデータ） (2023-03-02T21:48:22Z)
Stability of clinical prediction models developed using statistical or machine learning methods [0.5482532589225552]
臨床予測モデルは、複数の予測器の値に基づいて、個人の特定の健康結果のリスクを推定する。多くのモデルは、モデルとその予測(推定リスク)の不安定性につながる小さなデータセットを使用して開発されている。モデルの推定リスクの不安定性は、しばしばかなりのものであり、新しいデータにおける予測の誤校正として現れます。
論文参考訳（メタデータ） (2022-11-02T11:55:28Z)
Measuring Causal Effects of Data Statistics on Language Model's `Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文参考訳（メタデータ） (2022-07-28T17:36:24Z)
Sampling To Improve Predictions For Underrepresented Observations In Imbalanced Data [0.0]
データ不均衡は、表現不足な観測におけるモデルの予測性能に悪影響を及ぼす。本研究では,過去の生産データに基づいてトレーニングされたモデルの性能向上を目標として,この不均衡に対応するためのサンプリングを提案する。我々はペニシリン生産の先進的なシミュレーションから得られたバイオ医薬品製造データセットに本手法を適用した。
論文参考訳（メタデータ） (2021-11-17T12:16:54Z)
On the explainability of hospitalization prediction on a large COVID-19 patient dataset [45.82374977939355]
我々は、新型コロナウイルス陽性の米国の患者の大規模な(110ドル以上)コホートでの入院を予測するために、さまざまなAIモデルを開発した。高いデータアンバランスにもかかわらず、モデルは平均精度0.96-0.98 (0.75-0.85)、リコール0.96-0.98 (0.74-0.85)、F_score097-0.98 (0.79-0.83)に達する。
論文参考訳（メタデータ） (2021-10-28T10:23:38Z)
Increasing the efficiency of randomized trial estimates via linear adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文参考訳（メタデータ） (2020-12-17T21:10:10Z)
Impact of Medical Data Imprecision on Learning Results [9.379890125442333]
医療応用におけるインプレクションが予測結果に与える影響について検討した。トレーニング済みのモデルを用いて、患者の甲状腺機能亢進症の将来状態を予測する。
論文参考訳（メタデータ） (2020-07-24T06:54:57Z)
The Limits to Learning a Diffusion Model [5.6801303763150655]
本稿では,単純な拡散モデルの推定のために,最初のサンプル複雑性の低い境界を与える。拡散のかなり遅くまでそのようなモデルを学ぶことを期待できないことを示す。結果は,正確な予測の課題を定式化し,付加的なデータソースの導入の重要性を強調した。
論文参考訳（メタデータ） (2020-06-11T12:47:16Z)
Performance metrics for intervention-triggering prediction models do not reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文参考訳（メタデータ） (2020-06-02T16:26:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。