論文の概要: Integrating Machine Learning Ensembles and Large Language Models for Heart Disease Prediction Using Voting Fusion
- arxiv url: http://arxiv.org/abs/2602.22280v1
- Date: Wed, 25 Feb 2026 10:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.35091
- Title: Integrating Machine Learning Ensembles and Large Language Models for Heart Disease Prediction Using Voting Fusion
- Title(参考訳): ボイティングフュージョンを用いた機械学習アンサンブルと大規模言語モデルの統合による心疾患予測
- Authors: Md. Tahsin Amin, Tanim Ahmmod, Zannatul Ferdus, Talukder Naemul Hasan Naem, Ehsanul Ferdous, Arpita Bhattacharjee, Ishmam Ahmed Solaiman, Nahiyan Bin Noor,
- Abstract要約: 本研究は1,190人の患者記録を統合したデータセットを用いて心血管疾患を予測した。
MLアンサンブルとGemini 2.5 Flashによる推論のハイブリッド統合は、最高の結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cardiovascular disease is the primary cause of death globally, necessitating early identification, precise risk classification, and dependable decision-support technologies. The advent of large language models (LLMs) provides new zero-shot and few-shot reasoning capabilities, even though machine learning (ML) algorithms, especially ensemble approaches like Random Forest, XGBoost, LightGBM, and CatBoost, are excellent at modeling complex, non-linear patient data and routinely beat logistic regression. This research predicts cardiovascular disease using a merged dataset of 1,190 patient records, comparing traditional machine learning models (95.78% accuracy, ROC-AUC 0.96) with open-source large language models via OpenRouter APIs. Finally, a hybrid fusion of the ML ensemble and LLM reasoning under Gemini 2.5 Flash achieved the best results (96.62% accuracy, 0.97 AUC), showing that LLMs (78.9 % accuracy) work best when combined with ML models rather than used alone. Results show that ML ensembles achieved the highest performance (95.78% accuracy, ROC-AUC 0.96), while LLMs performed moderately in zero-shot (78.9%) and slightly better in few-shot (72.6%) settings. The proposed hybrid method enhanced the strength in uncertain situations, illustrating that ensemble ML is considered the best structured tabular prediction case, but it can be integrated with hybrid ML-LLM systems to provide a minor increase and open the way to more reliable clinical decision-support tools.
- Abstract(参考訳): 心臓血管疾患は、死の主な原因であり、早期の同定、正確なリスク分類、信頼性の高い意思決定支援技術が必要である。
大きな言語モデル(LLM)の出現は、機械学習(ML)アルゴリズム、特にランダムフォレスト、XGBoost、LightGBM、CatBoostといったアンサンブルアプローチが複雑で非線形な患者データモデリングに優れており、ロジスティック回帰を日常的に上回っているにもかかわらず、ゼロショットと少数ショットの推論機能を提供する。
本研究は、従来の機械学習モデル(95.78%の精度、ROC-AUC 0.96)とOpenRouter APIによるオープンソースの大規模言語モデルを比較し、1,190人の患者記録の統合データセットを用いて、心血管疾患を予測する。
最後に、Gemini 2.5 Flash によるMLアンサンブルと LLM のハイブリッド統合は、最高の結果(96.62% の精度、0.97 AUC)を達成した。
その結果、MLアンサンブルは最高パフォーマンス(95.78%の精度、ROC-AUC 0.96)を達成し、LSMは0ショット(78.9%)、数ショット(72.6%)で若干改善された。
提案手法は,アンサンブルMLが最高の構造的表型予測ケースであることを示すとともに,不確実な状況下での強度を向上するが,ハイブリッドML-LLMシステムと統合することにより,より信頼性の高い臨床診断支援ツールへの道を開くことができる。
関連論文リスト
- Transparent Early ICU Mortality Prediction with Clinical Transformer and Per-Case Modality Attribution [42.85462513661566]
ICU滞在後48時間から, 生理的時系列測定と非構造的臨床記録とを融合した, 軽量で透明なマルチモーダルアンサンブルを提案する。
ロジスティック回帰モデルは、バイタル用双方向LSTMとノート用微調整された臨床ModernBERT変換器の2つのモード固有モデルからの予測を組み合わせる。
MIMIC-IIIベンチマークでは、遅延融合アンサンブルは、よく校正された予測を維持しながら、最高の単一モデルに対する差別を改善する。
論文 参考訳(メタデータ) (2025-11-19T20:11:49Z) - Handling Extreme Class Imbalance: Using GANs in Data Augmentation for Suicide Prediction [0.0]
十分な正のサンプルを持つ実データはまれであり、極端なクラス不均衡を引き起こす。
我々は機械学習(ML)を利用して、Geneversarative Adrial Networks(GAN)のようなモデルとディープラーニング(DL)技術を構築しました。
GANは自殺防止モデリングを支援するために合成データを生成する上で重要な役割を果たした。
論文 参考訳(メタデータ) (2025-10-20T15:35:39Z) - Generalizable Diabetes Risk Stratification via Hybrid Machine Learning Models [0.0]
糖尿病は世界中で5億3700万人を超え、2045年までに7億8300万人に達すると予測されている。
2つのハイブリッド分類器を比較し、外部コホート上での一般化性を評価する。
論文 参考訳(メタデータ) (2025-09-24T21:18:52Z) - Differentiated Thyroid Cancer Recurrence Classification Using Machine Learning Models and Bayesian Neural Networks with Varying Priors: A SHAP-Based Interpretation of the Best Performing Model [0.0]
甲状腺癌のDTC再発は主要な公衆衛生上の問題である。
本研究は, 383名の患者を対象としたデータセットを用いて, DTC再分類のための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-07-25T06:31:31Z) - Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。
評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文 参考訳(メタデータ) (2025-05-23T14:06:42Z) - A Comprehensive Analysis on Machine Learning based Methods for Lung Cancer Level Classification [0.0]
肺がんは世界中の公衆衛生において大きな問題であり、安定した技術を用いた早期診断が必要である。
この研究は、肺癌のステージを正確に分類するための機械学習(ML)手法の徹底的な研究を開始する。
XGBoost(XGB)、LGBM、Adaboost、Logistic Regression(LR)、Decision Tree(DT)、Random Forest(RF)、CatBoost、k-Nearest Neighbor(k-NN)などの機械学習(ML)モデルは、方法論的に実行され、対比される。
論文 参考訳(メタデータ) (2025-01-30T12:09:54Z) - Comparing Hyper-optimized Machine Learning Models for Predicting Efficiency Degradation in Organic Solar Cells [38.647921189039934]
本研究は,有機太陽電池 (OSC) の電力変換効率 (PCE) に苦しむ時間的劣化を表現するための機械学習モデルを提案する。
製造プロセスと環境条件の両方に関して最大7変数を含む996項目のデータベースを180日間以上作成しました。
一方、根平均二乗誤差(RMSE)、二乗誤差(SSE)の和、および平均絶対誤差(MAE)>1%の目標値であるPCEは、係数決定(R2)の値に達した。
論文 参考訳(メタデータ) (2024-03-29T22:05:26Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。