論文の概要: Case Prompting to Mitigate Large Language Model Bias for ICU Mortality Prediction
- arxiv url: http://arxiv.org/abs/2512.19735v2
- Date: Wed, 24 Dec 2025 08:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 13:34:31.948655
- Title: Case Prompting to Mitigate Large Language Model Bias for ICU Mortality Prediction
- Title(参考訳): ICU死亡予測のための大規模言語モデルバイアス軽減のためのケースプロンプト
- Authors: Gangxiong Zhang, Yongchao Long, Yong Zhang, Yuxi Zhou, Shenda Hong,
- Abstract要約: 大規模言語モデル(LLM)は、構造化された医療データから結果を予測することを約束している。
LLMは性、年齢、人種に関する人口統計バイアスを示し、臨床実践における信頼に値する使用を制限することができる。
本研究では,公正さとパフォーマンスを同時に向上するトレーニングフリー,臨床適応型プロンプトフレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.91443453604627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate mortality risk prediction for intensive care unit (ICU) patients is essential for clinical decision-making. Although large language models (LLMs) show promise in predicting outcomes from structured medical data, their predictions may exhibit demographic biases related to sex, age, and race, limiting their trustworthy use in clinical practice. Existing debiasing methods often reduce predictive performance, making it difficult to jointly optimize fairness and accuracy. In this study, we systematically examine bias in LLM-based ICU mortality prediction and propose a training-free, clinically adaptive prompting framework to simultaneously improve fairness and performance. We first develop a multi-dimensional bias assessment scheme for comprehensive model diagnosis. Building on this analysis, we introduce CAse Prompting (CAP), a novel prompting framework that integrates conventional debiasing prompts with case-based reasoning. CAP guides the model to learn from similar historical misprediction cases and their correct outcomes, enabling correction of biased reasoning patterns. Experiments on the MIMIC-IV dataset show that CAP substantially improves both predictive accuracy and fairness. CAP increases AUROC from 0.806 to 0.873 and AUPRC from 0.497 to 0.694, while reducing sex- and race-related disparities by over 90%. Feature reliance analysis further indicates highly consistent attention patterns across demographic groups, with similarity scores exceeding 0.98. These results demonstrate that LLMs exhibit measurable bias in ICU mortality prediction, and that a carefully designed prompting framework can effectively co-optimize fairness and performance without retraining, offering a transferable paradigm for equitable clinical decision support.
- Abstract(参考訳): 集中治療室(ICU)患者の正確な死亡リスク予測は、臨床診断に不可欠である。
大きな言語モデル(LLM)は、構造化された医療データから結果を予測することを約束するが、その予測は性、年齢、人種に関連する人口統計バイアスを示し、臨床実践において信頼できる使用を制限する可能性がある。
既存のデバイアス法はしばしば予測性能を低下させ、公正さと精度を共同で最適化することは困難である。
本研究では, LLMに基づくICU死亡予測のバイアスを系統的に検討し, 公平さとパフォーマンスを同時に改善するためのトレーニング不要, 臨床適応型プロンプトフレームワークを提案する。
まず,包括的モデル診断のための多次元バイアス評価手法を開発した。
この分析に基づいて,従来のデバイアスプロンプトとケースベース推論を統合した新しいプロンプトフレームワークであるCAse Prompting(CAP)を紹介した。
CAPは、同様の歴史的誤った事例とその正しい結果から学習し、偏りのある推論パターンの修正を可能にする。
MIMIC-IVデータセットの実験により、CAPは予測精度と公正性の両方を大幅に改善することが示された。
CAPはAUROCを0.806から0.873に、AUPRCを0.497から0.694に増加させ、セックスや人種に関する格差を90%以上減少させる。
特徴依存分析により、人口集団間での高度に一貫した注意パターンが示され、類似性スコアは0.98を超えた。
これらの結果から,ILMはICU死亡予測において測定可能なバイアスを示し,慎重に設計されたプロンプトフレームワークは,再トレーニングを伴わずに,公平性とパフォーマンスを効果的に最適化し,公平な臨床診断支援のための伝達可能なパラダイムを提供することを示した。
関連論文リスト
- Early Mortality Prediction in ICU Patients with Hypertensive Kidney Disease Using Interpretable Machine Learning [3.4335475695580127]
集中治療室(ICUs)の高血圧性腎疾患(HKD)患者は短期的死亡率が高い。
我々は,HKDのICU患者に対して,30日間の院内死亡を予測できる機械学習フレームワークを開発した。
論文 参考訳(メタデータ) (2025-07-25T00:48:23Z) - Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。
ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文 参考訳(メタデータ) (2025-06-11T06:30:28Z) - Explainable AI for Mental Health Emergency Returns: Integrating LLMs with Predictive Modeling [2.466324275447403]
救急部門(ED)は精神状態の回復が大きな医療負担となり、患者の24-27%が30日以内に帰国する。
大規模言語モデル(LLM)と機械学習を統合することにより、EDメンタルヘルスリターンリスクモデルの予測精度と臨床的解釈性が向上するか否かを評価する。
論文 参考訳(メタデータ) (2025-01-21T15:41:20Z) - SepsisLab: Early Sepsis Prediction with Uncertainty Quantification and Active Sensing [67.8991481023825]
セプシスは米国での院内死亡の主な原因である。
既存の予測モデルは通常、情報不足の少ない高品質なデータで訓練される。
限られた観察により信頼性の低い高リスク患者に対して,ロバストな能動センシングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-24T04:47:36Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z) - A Knowledge Distillation Ensemble Framework for Predicting Short and
Long-term Hospitalisation Outcomes from Electronic Health Records Data [5.844828229178025]
既存の結果予測モデルは、頻繁なポジティブな結果の低いリコールに悩まされる。
我々は、死亡率とICUの受け入れによって表される逆さを自動的に予測する、高度にスケーリング可能な、堅牢な機械学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-18T15:56:28Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。