論文の概要: Interpretable Machine Learning for Life Expectancy Prediction: A Comparative Study of Linear Regression, Decision Tree, and Random Forest
- arxiv url: http://arxiv.org/abs/2510.00542v1
- Date: Wed, 01 Oct 2025 06:02:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.402958
- Title: Interpretable Machine Learning for Life Expectancy Prediction: A Comparative Study of Linear Regression, Decision Tree, and Random Forest
- Title(参考訳): 寿命予測のための解釈可能な機械学習:リニア回帰、決定木、ランダムフォレストの比較研究
- Authors: Roman Dolgopolyi, Ioanna Amaslidou, Agrippina Margaritou,
- Abstract要約: 本研究では、線形回帰(LR)、回帰決定木(RDT)、ランダムフォレスト(RF)の3つの機械学習モデルを評価する。
RFは最大予測精度(R2 = 0.9423$)を達成し、LRとRTTを大きく上回る。
これらの洞察は、公衆衛生上の課題に対処する上で、アンサンブル手法と透明性の相乗効果を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Life expectancy is a fundamental indicator of population health and socio-economic well-being, yet accurately forecasting it remains challenging due to the interplay of demographic, environmental, and healthcare factors. This study evaluates three machine learning models -- Linear Regression (LR), Regression Decision Tree (RDT), and Random Forest (RF), using a real-world dataset drawn from World Health Organization (WHO) and United Nations (UN) sources. After extensive preprocessing to address missing values and inconsistencies, each model's performance was assessed with $R^2$, Mean Absolute Error (MAE), and Root Mean Squared Error (RMSE). Results show that RF achieves the highest predictive accuracy ($R^2 = 0.9423$), significantly outperforming LR and RDT. Interpretability was prioritized through p-values for LR and feature importance metrics for the tree-based models, revealing immunization rates (diphtheria, measles) and demographic attributes (HIV/AIDS, adult mortality) as critical drivers of life-expectancy predictions. These insights underscore the synergy between ensemble methods and transparency in addressing public-health challenges. Future research should explore advanced imputation strategies, alternative algorithms (e.g., neural networks), and updated data to further refine predictive accuracy and support evidence-based policymaking in global health contexts.
- Abstract(参考訳): 平均余命は、人口の健康と社会経済的幸福の基本的な指標であるが、人口動態、環境、医療要因の相互作用により依然として困難な状態にあると正確に予測している。
本研究では、世界保健機関(WHO)と国連(UN)の資料から得られた実世界のデータセットを用いて、リニア回帰(LR)、回帰決定木(RDT)、ランダムフォレスト(RF)の3つの機械学習モデルを評価する。
不足した値と不整合に対処する広範囲な事前処理の後、各モデルのパフォーマンスは、$R^2$、Mean Absolute Error (MAE)、Root Mean Squared Error (RMSE)で評価された。
その結果,RFの予測精度が最も高い(R^2 = 0.9423$)。
LRのp値と樹上モデルの特徴的重要性を指標として,免疫率(ジフテリア,麻疹)と人口動態特性(HIV/AIDS,成人死亡率)を生命予測の重要な要因として検討した。
これらの洞察は、公衆衛生上の課題に対処する上で、アンサンブル手法と透明性の相乗効果を強調している。
今後の研究は、先進的な計算戦略、代替アルゴリズム(例えばニューラルネットワーク)、そして予測精度をさらに改善し、グローバルな健康状況におけるエビデンスベースのポリシー作成をサポートする更新データを検討するべきである。
関連論文リスト
- Chronic Diseases Prediction using Machine Learning and Deep Learning Methods [0.0]
本研究は,慢性疾患および甲状腺疾患の予測に機械学習(ML)およびディープラーニング(DL)技術の応用について検討した。
我々は、ロジスティック回帰(LR)、ランダムフォレスト(RF)、グラディエントブーストツリー(GBT)、ニューラルネットワーク(NN)、決定木(DT)、ネイティブベイズ(NB)など、さまざまなモデルを使用した。
その結果、ランダムフォレストやグラディエントブーストツリーのようなアンサンブル手法は一貫して優れていた。
論文 参考訳(メタデータ) (2025-04-30T21:08:16Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Beyond Tides and Time: Machine Learning Triumph in Water Quality [0.0]
この研究は、データサイエンスの専門家とドメイン固有の知識を持たない人々の両方にとって、堅牢な予測パイプラインを確立することを目的としている。
我々の研究は、データサイエンスの専門家とドメイン固有の知識を持たない人々の両方にとって、堅牢な予測パイプラインを確立することを目的としています。
論文 参考訳(メタデータ) (2023-09-29T03:33:53Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - A New Approach for Interpretability and Reliability in Clinical Risk
Prediction: Acute Coronary Syndrome Scenario [0.33927193323747895]
我々は、リスクスコアと機械学習モデルの両方の最高の特徴を組み合わせた、新たなリスクアセスメント方法論を作成するつもりです。
提案手法は、標準LRと同一の試験結果を得たが、より優れた解釈性とパーソナライゼーションを提供する。
個人予測の信頼性推定は誤分類率と大きな相関を示した。
論文 参考訳(メタデータ) (2021-10-15T19:33:46Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。