論文の概要: Impact of Comprehensive Data Preprocessing on Predictive Modelling of COVID-19 Mortality
- arxiv url: http://arxiv.org/abs/2408.08142v1
- Date: Thu, 15 Aug 2024 13:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:56:12.246060
- Title: Impact of Comprehensive Data Preprocessing on Predictive Modelling of COVID-19 Mortality
- Title(参考訳): 包括的データ前処理がCOVID-19死亡率予測モデルに及ぼす影響
- Authors: Sangita Das, Subhrajyoti Maji,
- Abstract要約: 本研究では、新型コロナウイルスの死亡率を予測する10の機械学習モデルに対する、カスタムデータ前処理パイプラインの影響を評価する。
私たちのパイプラインは、標準的な前処理パイプラインと4つの重要なステップで異なります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate predictive models are crucial for analysing COVID-19 mortality trends. This study evaluates the impact of a custom data preprocessing pipeline on ten machine learning models predicting COVID-19 mortality using data from Our World in Data (OWID). Our pipeline differs from a standard preprocessing pipeline through four key steps. Firstly, it transforms weekly reported totals into daily updates, correcting reporting biases and providing more accurate estimates. Secondly, it uses localised outlier detection and processing to preserve data variance and enhance accuracy. Thirdly, it utilises computational dependencies among columns to ensure data consistency. Finally, it incorporates an iterative feature selection process to optimise the feature set and improve model performance. Results show a significant improvement with the custom pipeline: the MLP Regressor achieved a test RMSE of 66.556 and a test R-squared of 0.991, surpassing the DecisionTree Regressor from the standard pipeline, which had a test RMSE of 222.858 and a test R-squared of 0.817. These findings highlight the importance of tailored preprocessing techniques in enhancing predictive modelling accuracy for COVID-19 mortality. Although specific to this study, these methodologies offer valuable insights into diverse datasets and domains, improving predictive performance across various contexts.
- Abstract(参考訳): 正確な予測モデルは、新型コロナウイルスの死亡率の傾向を分析するのに不可欠だ。
本研究は、Our World in Data (OWID)のデータを用いて、新型コロナウイルスの死亡率を予測する10の機械学習モデルに対するカスタムデータ前処理パイプラインの影響を評価する。
私たちのパイプラインは、標準的な前処理パイプラインと4つの重要なステップで異なります。
まず、毎週報告された総計を毎日のアップデートに変換し、レポートのバイアスを修正し、より正確な見積もりを提供する。
第2に、データの分散を保ち、精度を高めるために、ローカライズされた外れ値検出と処理を使用する。
第3に、列間の計算的依存関係を活用して、データの一貫性を保証する。
最後に、反復的な特徴選択プロセスを導入し、機能セットを最適化し、モデルパフォーマンスを改善する。
MLPレグレッサーは66.556のRMSEと0.991のR-squaredを達成し、標準パイプラインのDecisionTreeレグレッサーを上回り、RMSEは222.858、R-squaredは0.817であった。
これらの知見は、新型コロナウイルスの死亡率を予測するための予測モデリング精度を高めるために、調整済みの前処理技術の重要性を強調している。
この研究に特有であるが、これらの方法論は多様なデータセットやドメインに対する貴重な洞察を与え、様々な文脈における予測性能を向上させる。
関連論文リスト
- Drift-Resilient TabPFN: In-Context Learning Temporal Distribution Shifts on Tabular Data [39.40116554523575]
In-Context Learning with a Prior-Data Fitted Network に基づく新しいアプローチである Drift-Resilient TabPFN を提案する。
先行した合成データセットのベイズ推定を近似することを学ぶ。
精度は0.688から0.744に向上し、OC AUCは0.786から0.832に向上し、キャリブレーションも強化された。
論文 参考訳(メタデータ) (2024-11-15T23:49:23Z) - Sustaining model performance for covid-19 detection from dynamic audio data: Development and evaluation of a comprehensive drift-adaptive framework [0.5679775668038152]
新型コロナウイルスのパンデミックは、多様なデータソースから病気を検出できる堅牢な診断ツールの必要性を強調している。
実世界のデータのダイナミックな性質は、基礎となるデータ分散が変化するにつれて、パフォーマンスが時間の経過とともに低下するモデルドリフトにつながる可能性がある。
本研究の目的は,モデルドリフトをモニタし,適応機構を用いて性能変動を緩和するフレームワークを開発することである。
論文 参考訳(メタデータ) (2024-09-28T10:06:30Z) - Benchmarking Estimators for Natural Experiments: A Novel Dataset and a Doubly Robust Algorithm [12.201705893125775]
幼少期のリテラシー非営利団体から得られた,新たな自然実験データセットについて紹介する。
データセットに20以上の確立された推定値を適用すると、非営利団体の有効性を評価するための一貫性のない結果が得られる。
合成結果を用いて推定器の精度を評価するベンチマークを作成する。
論文 参考訳(メタデータ) (2024-09-06T15:44:45Z) - Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-10-07T23:21:25Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Prediction of SLAM ATE Using an Ensemble Learning Regression Model and
1-D Global Pooling of Data Characterization [3.4399698738841553]
原位置センサの入力特性に基づいてSLAMの局所化誤差を予測する新しい手法を提案する。
提案手法は, 原位置センサデータから生成した1次元グローバルプール特徴に基づくランダム森林回帰モデルを用いた。
また,12の異なる1次元大域プール関数が回帰品質に及ぼす影響について検討し,その1次元大域平均化の優位性について定量的に検証した。
論文 参考訳(メタデータ) (2023-03-01T16:12:47Z) - Learning brain MRI quality control: a multi-factorial generalization
problem [0.0]
本研究の目的は,MRIQCパイプラインの性能評価である。
分析はMRIQCの前処理ステップに焦点を合わせ、パイプラインをそれなしでテストした。
我々は、CATIデータセットのような異種集団のデータで訓練されたモデルが、目に見えないデータの最良のスコアを提供すると結論付けた。
論文 参考訳(メタデータ) (2022-05-31T15:46:44Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。