論文の概要: Evaluation of Causal Reasoning for Large Language Models in Contextualized Clinical Scenarios of Laboratory Test Interpretation
- arxiv url: http://arxiv.org/abs/2509.16372v1
- Date: Fri, 19 Sep 2025 19:28:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.759792
- Title: Evaluation of Causal Reasoning for Large Language Models in Contextualized Clinical Scenarios of Laboratory Test Interpretation
- Title(参考訳): 実験室検査解釈の文脈化臨床シナリオにおける大規模言語モデルに対する因果推論の評価
- Authors: Balu Bhasuran, Mattia Prosperi, Karim Hanna, John Petrilli, Caretia JeLayne Washington, Zhe He,
- Abstract要約: 本研究は,99の臨床基礎実験シナリオを用いて,大規模言語モデル(LLM)の因果推論を評価する。
ヘモグロビンA1c, クレアチニン, ビタミンDなどの実験室試験を行い, 年齢, 性別, 肥満, 喫煙などの関連要因と組み合わせた。
GPT-o1とLlama-3.2-8b-インストラクションの2つのモデルが試験され、医療訓練を受けた4人の専門家が回答した。
- 参考スコア(独自算出の注目度): 1.3321309556812102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates causal reasoning in large language models (LLMs) using 99 clinically grounded laboratory test scenarios aligned with Pearl's Ladder of Causation: association, intervention, and counterfactual reasoning. We examined common laboratory tests such as hemoglobin A1c, creatinine, and vitamin D, and paired them with relevant causal factors including age, gender, obesity, and smoking. Two LLMs - GPT-o1 and Llama-3.2-8b-instruct - were tested, with responses evaluated by four medically trained human experts. GPT-o1 demonstrated stronger discriminative performance (AUROC overall = 0.80 +/- 0.12) compared to Llama-3.2-8b-instruct (0.73 +/- 0.15), with higher scores across association (0.75 vs 0.72), intervention (0.84 vs 0.70), and counterfactual reasoning (0.84 vs 0.69). Sensitivity (0.90 vs 0.84) and specificity (0.93 vs 0.80) were also greater for GPT-o1, with reasoning ratings showing similar trends. Both models performed best on intervention questions and worst on counterfactuals, particularly in altered outcome scenarios. These findings suggest GPT-o1 provides more consistent causal reasoning, but refinement is required before adoption in high-stakes clinical applications.
- Abstract(参考訳): 本研究はPearl's Ladder of Causation(パール・ラダー・オブ・カウセーション)と整合した99の臨床試験シナリオを用いて,大規模言語モデル(LLM)の因果推論を評価する。
ヘモグロビンA1c, クレアチニン, ビタミンDなどの実験室試験を行い, 年齢, 性別, 肥満, 喫煙などの関連要因と組み合わせた。
2つのLDM(GPT-o1とLlama-3.2-8b-instruct)が試験され、4人の医学的に訓練された人間の専門家が回答した。
GPT-o1 は Llama-3.2-8b-instruct (0.73 +/- 0.15) よりも強い識別性能(AUROC overall = 0.80 +/- 0.12)を示し、関連性(0.75 vs 0.72)、介入(0.84 vs 0.70)、反ファクト推論(0.84 vs 0.69)が見られた。
GPT-o1では感度(0.90 vs 0.84)と特異性(0.93 vs 0.80)も高く、同様の傾向を示した。
どちらのモデルも介入問題で最善を尽くし、特に改善された結果のシナリオでは、カウンターファクトルが最悪の結果となった。
以上の結果から, GPT-o1はより一貫した因果推論をもたらすことが示唆された。
関連論文リスト
- A Novel Attention-Augmented Wavelet YOLO System for Real-time Brain Vessel Segmentation on Transcranial Color-coded Doppler [49.03919553747297]
我々は,脳動脈を効率よく捉えることができるAIを利用したリアルタイムCoW自動分割システムを提案する。
Transcranial Color-coded Doppler (TCCD) を用いたAIによる脳血管セグメンテーションの事前研究は行われていない。
提案したAAW-YOLOは, 異方性および対側性CoW容器のセグメンテーションにおいて高い性能を示した。
論文 参考訳(メタデータ) (2025-08-19T14:41:22Z) - Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。
評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文 参考訳(メタデータ) (2025-05-23T14:06:42Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - Lab-AI: Using Retrieval Augmentation to Enhance Language Models for Personalized Lab Test Interpretation in Clinical Medicine [25.23073509982281]
ほとんどの患者ポータルは、年齢や性別などの条件因子を無視して、普遍的な正常範囲を使用する。
本研究では,信頼できる健康源からの検索強化世代(RAG)を用いて,個人化された正常範囲を提供する対話型システムであるLab-AIを紹介する。
論文 参考訳(メタデータ) (2024-09-16T20:36:17Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - IITK at SemEval-2024 Task 2: Exploring the Capabilities of LLMs for Safe Biomedical Natural Language Inference for Clinical Trials [4.679320772294786]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて最先端の性能を示す。
本研究は,乳がん臨床治験報告(CTR)における自然言語推論(NLI)実施時のLSMsの堅牢性,一貫性,忠実な推論について検討する。
論理的問題解決におけるLLMの推論能力とその適応性について検討する。
論文 参考訳(メタデータ) (2024-04-06T05:44:53Z) - Using YOLO v7 to Detect Kidney in Magnetic Resonance Imaging [1.1567496318601842]
医用画像ライブラリを用いた半教師ありアプローチによる腎臓検出のための高性能モデルを開発した。
モデルの一般化性を評価するには、さらなる外部検証が必要である。
論文 参考訳(メタデータ) (2024-02-08T16:54:20Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - A Scalable Workflow to Build Machine Learning Classifiers with
Clinician-in-the-Loop to Identify Patients in Specific Diseases [10.658425378457363]
臨床医は、EHR(Electronic Health Records)から疾患のある患者を識別するために、ICD(International Classification of Diseases)などの医療コーディングシステムを利用することができる。
近年の研究では、ICD符号は、実際の臨床実践において特定の疾患に対して、患者を正確に特徴づけることができないことが示唆されている。
本稿では,構造化データと非構造化テキストノートの両方を,NLP,AutoML,Cysian-in-the-Loop機構などの技術で活用するスケーラブルなワークフローを提案する。
論文 参考訳(メタデータ) (2022-05-18T12:24:07Z) - Automated Quantification of CT Patterns Associated with COVID-19 from
Chest CT [48.785596536318884]
提案法は,非造影胸部CTを入力として,病変,肺,葉を3次元に分割する。
この方法では、肺の重症度と葉の関与度を2つの組み合わせて測定し、COVID-19の異常度と高不透明度の存在度を定量化する。
このアルゴリズムの評価は、カナダ、ヨーロッパ、米国からの200人の参加者(感染者100人、健康管理100人)のCTで報告されている。
論文 参考訳(メタデータ) (2020-04-02T21:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。