論文の概要: Benchmarking LLMs for Predictive Applications in the Intensive Care Units
- arxiv url: http://arxiv.org/abs/2512.20520v1
- Date: Tue, 23 Dec 2025 17:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.943803
- Title: Benchmarking LLMs for Predictive Applications in the Intensive Care Units
- Title(参考訳): 集中治療室における予測応用のためのLCMのベンチマーク
- Authors: Chehak Malhotra, Mehak Gopal, Akshaya Devadiga, Pradeep Singh, Ridam Pal, Ritwik Kashyap, Tavpritesh Sethi,
- Abstract要約: この研究では、GatorTron-Base(臨床データに基づいてトレーニングされた)、Llama 8B、Mistral 7Bといった大規模言語モデルと、BioBERT、DocBERT、BioClinicalBERT、Word2Vec、Doc2Vecといったモデルを比較した。
有意義な臨床結果を得るためには, LLMのトレーニングにおける今後の取り組みは, 臨床軌跡を予測できる発展型モデルを優先すべきである。
- 参考スコア(独自算出の注目度): 2.301368952468297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of LLMs, various tasks across the natural language processing domain have been transformed. However, their application in predictive tasks remains less researched. This study compares large language models, including GatorTron-Base (trained on clinical data), Llama 8B, and Mistral 7B, against models like BioBERT, DocBERT, BioClinicalBERT, Word2Vec, and Doc2Vec, setting benchmarks for predicting Shock in critically ill patients. Timely prediction of shock can enable early interventions, thus improving patient outcomes. Text data from 17,294 ICU stays of patients in the MIMIC III database were scored for length of stay > 24 hours and shock index (SI) > 0.7 to yield 355 and 87 patients with normal and abnormal SI-index, respectively. Both focal and cross-entropy losses were used during finetuning to address class imbalances. Our findings indicate that while GatorTron Base achieved the highest weighted recall of 80.5%, the overall performance metrics were comparable between SLMs and LLMs. This suggests that LLMs are not inherently superior to SLMs in predicting future clinical events despite their strong performance on text-based tasks. To achieve meaningful clinical outcomes, future efforts in training LLMs should prioritize developing models capable of predicting clinical trajectories rather than focusing on simpler tasks such as named entity recognition or phenotyping.
- Abstract(参考訳): LLMの出現により、自然言語処理領域にまたがる様々なタスクが変換された。
しかし、予測タスクへの応用は依然として研究されていない。
今回の研究では、GatorTron-Base(臨床データに基づいてトレーニングされた)、Llama 8B、Mistral 7Bといった大規模言語モデルと、BioBERT、DocBERT、BioClinicalBERT、Word2Vec、Doc2Vecといったモデルを比較し、重篤な患者でShockを予測するためのベンチマークを設定した。
ショックのタイムリーな予測は早期介入を可能にし、患者の結果を改善する。
MIMIC III データベースに記録した17,294 ICU のテキストデータは,滞在時間 > 24 時間,ショック指数 (SI) > 0.7 で355 例,異常SI-index が87 例であった。
焦点損失とクロスエントロピー損失は、クラス不均衡に対処するために微調整中に使用された。
GatorTron Baseは80.5%のハイウェイトリコールを達成したが、全体的なパフォーマンス指標はSLMとLLMに匹敵するものだった。
このことから,LSMはテキストベースのタスクにおいて高い性能を示すにもかかわらず,将来の臨床イベントを予測する上で,SLMよりも本質的に優れているわけではないことが示唆された。
有意義な臨床結果を達成するために,LLMのトレーニングは,命名された実体認識や表現型化といった単純なタスクよりも,臨床軌跡を予測できるモデルの開発を優先すべきである。
関連論文リスト
- COPE: Chain-Of-Thought Prediction Engine for Open-Source Large Language Model Based Stroke Outcome Prediction from Clinical Notes [23.044580867637105]
CoT (Chain-of-Thought) Outcome Prediction Engine (COPE) は、構造化されていない臨床ノートから結果を予測するための推論強化された大規模言語モデルフレームワークである。
本研究は急性虚血性脳梗塞(AIS)464例と90日間のRanin Scale(mRS)スコアを比較検討した。
COPEは1.01 (95% CI 0.92-1.11), +/-1 の精度 74.4% (69.9, 78.8%), 正確な精度 32.8% (28.0, 37.6%) を達成した。
論文 参考訳(メタデータ) (2025-12-02T07:44:20Z) - OncoReason: Structuring Clinical Reasoning in LLMs for Robust and Interpretable Survival Prediction [2.904892426557913]
大規模言語モデル (LLM) は, バイオメディカルNLPにおいて高い性能を示した。
本稿では,自己回帰型LPMと結果予測のための臨床推論を整合させる,統合型マルチタスク学習フレームワークを提案する。
マルチタスク・クリニカル・モデリングにおける推論・アライメントの重要性について検討した。
論文 参考訳(メタデータ) (2025-10-20T13:35:12Z) - Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。
ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文 参考訳(メタデータ) (2025-06-11T06:30:28Z) - Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。
評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文 参考訳(メタデータ) (2025-05-23T14:06:42Z) - Explainable AI for Mental Health Emergency Returns: Integrating LLMs with Predictive Modeling [2.466324275447403]
救急部門(ED)は精神状態の回復が大きな医療負担となり、患者の24-27%が30日以内に帰国する。
大規模言語モデル(LLM)と機械学習を統合することにより、EDメンタルヘルスリターンリスクモデルの予測精度と臨床的解釈性が向上するか否かを評価する。
論文 参考訳(メタデータ) (2025-01-21T15:41:20Z) - AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。
これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。
AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - Multimodal Physical Activity Forecasting in Free-Living Clinical Settings: Hunting Opportunities for Just-in-Time Interventions [7.002143951776267]
本研究は,患者の活動行動を予測するライフスタイル介入システムであるMoveSenseを開発することを目的とする。
閉塞性睡眠時無呼吸症患者は, 58名, 60名であった。
論文 参考訳(メタデータ) (2024-10-12T20:44:00Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。