論文の概要: Interpretable Heart Disease Prediction via a Weighted Ensemble Model: A Large-Scale Study with SHAP and Surrogate Decision Trees
- arxiv url: http://arxiv.org/abs/2511.01947v1
- Date: Mon, 03 Nov 2025 10:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.60749
- Title: Interpretable Heart Disease Prediction via a Weighted Ensemble Model: A Large-Scale Study with SHAP and Surrogate Decision Trees
- Title(参考訳): 重み付きアンサンブルモデルによる心疾患予測 : SHAPとSurgate Decision Treeを用いた大規模研究
- Authors: Md Abrar Hasnat, Md Jobayer, Md. Mehedi Hasan Shawon, Md. Golam Rabiul Alam,
- Abstract要約: 心血管疾患(CVD)は、早期リスク評価のための信頼性と解釈可能な予測モデルを必要とする、重要な世界的な健康上の問題である。
本研究では,木に基づく手法(LightGBM, XGBoost)と畳み込みニューラルネットワーク(CNN)を組み合わせてCVDリスクを予測する戦略的重み付けアンサンブルモデルを提案する。
提案モデルでは,多様な学習アーキテクチャをブレンドすることで,堅牢な予測性能と臨床透過性を組み合わせ,SHAPとサロゲート決定木による説明可能性を実現する。
- 参考スコア(独自算出の注目度): 1.7616014313664448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cardiovascular disease (CVD) remains a critical global health concern, demanding reliable and interpretable predictive models for early risk assessment. This study presents a large-scale analysis using the Heart Disease Health Indicators Dataset, developing a strategically weighted ensemble model that combines tree-based methods (LightGBM, XGBoost) with a Convolutional Neural Network (CNN) to predict CVD risk. The model was trained on a preprocessed dataset of 229,781 patients where the inherent class imbalance was managed through strategic weighting and feature engineering enhanced the original 22 features to 25. The final ensemble achieves a statistically significant improvement over the best individual model, with a Test AUC of 0.8371 (p=0.003) and is particularly suited for screening with a high recall of 80.0%. To provide transparency and clinical interpretability, surrogate decision trees and SHapley Additive exPlanations (SHAP) are used. The proposed model delivers a combination of robust predictive performance and clinical transparency by blending diverse learning architectures and incorporating explainability through SHAP and surrogate decision trees, making it a strong candidate for real-world deployment in public health screening.
- Abstract(参考訳): 心血管疾患(CVD)は、早期リスク評価のための信頼性と解釈可能な予測モデルを必要とする、重要な世界的な健康上の問題である。
本研究では,CNN(Convolutional Neural Network)とツリーベース手法(LightGBM, XGBoost)を組み合わせてCVDリスクを予測する戦略的に重み付けされたアンサンブルモデルを構築し,Heart Disease Health Indicators Datasetを用いた大規模解析を行った。
このモデルは229,781人の事前処理したデータセットで訓練され、そこでは固有のクラス不均衡は戦略的重み付けによって管理され、特徴工学はオリジナルの22の特徴を25まで強化した。
最終的なアンサンブルは、テストAUCが0.8371 (p=0.003)であり、特に80.0%の高いリコールでスクリーニングするのに適している。
透明性及び臨床的解釈性を提供するため、決定木を代理し、SHAP(SHapley Additive exPlanations)を用いる。
提案モデルでは,多様な学習アーキテクチャをブレンドし,SHAPとシュロゲート決定木による説明可能性の導入により,堅牢な予測性能と臨床透過性を組み合わせ,公衆衛生検査における現実的な展開の候補となる。
関連論文リスト
- A Disease-Centric Vision-Language Foundation Model for Precision Oncology in Kidney Cancer [54.58205672910646]
RenalCLIPは、腎腫瘤の特徴、診断、予後のための視覚言語基盤モデルである。
腎がんの完全な臨床ワークフローにまたがる10のコアタスクにおいて、優れたパフォーマンスと優れた一般化性を実現した。
論文 参考訳(メタデータ) (2025-08-22T17:48:19Z) - Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。
包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文 参考訳(メタデータ) (2025-05-30T14:42:02Z) - Machine Learning Solutions Integrated in an IoT Healthcare Platform for Heart Failure Risk Stratification [0.16863755729554883]
慢性心不全(HF)の管理は、現代医療において重要な課題である。
本稿では,HFリスクのある患者を識別するための機械学習(ML)技術に基づく予測モデルを提案する。
論文 参考訳(メタデータ) (2025-04-07T14:07:05Z) - Optimizing Disease Prediction with Artificial Intelligence Driven Feature Selection and Attention Networks [0.0]
この記事では、先駆的なアンサンブル特徴選択モデルを紹介します。
提案モデルの中心には、最適な特徴選択のための新しいアプローチであるSEV-EBアルゴリズムがある。
HSC-AttentionNetが導入され、モデルが健康データ内の短期パターンと長期依存関係の両方をキャプチャできる。
論文 参考訳(メタデータ) (2024-07-31T14:12:27Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。