論文の概要: How Robust Are Large Language Models for Clinical Numeracy? An Empirical Study on Numerical Reasoning Abilities in Clinical Contexts
- arxiv url: http://arxiv.org/abs/2604.11133v2
- Date: Wed, 15 Apr 2026 02:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.434162
- Title: How Robust Are Large Language Models for Clinical Numeracy? An Empirical Study on Numerical Reasoning Abilities in Clinical Contexts
- Title(参考訳): 大規模言語モデルと臨床栄養学 : 臨床的文脈における数値推論能力に関する実証的研究
- Authors: Minh-Vuong Nguyen, Fatemeh Shiri, Zhuang Li, Karin Verspoor,
- Abstract要約: ClinicalNumRobBenchは、1,624のコンテキスト検索インスタンスのベンチマークで、基調的な回答がある。
本研究は, 値検索, 算術演算, リレーショナル比較, 集約の4種類の臨床数値性を評価する。
- 参考スコア(独自算出の注目度): 11.740513556909542
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly being explored for clinical question answering and decision support, yet safe deployment critically requires reliable handling of patient measurements in heterogeneous clinical notes. Existing evaluations of LLMs for clinical numerical reasoning provide limited operation-level coverage, restricted primarily to arithmetic computation, and rarely assess the robustness of numerical understanding across clinical note formats. We introduce ClinicNumRobBench, a benchmark of 1,624 context-question instances with ground-truth answers that evaluates four main types of clinical numeracy: value retrieval, arithmetic computation, relational comparison, and aggregation. To stress-test robustness, ClinicNumRobBench presents longitudinal MIMIC-IV vital-sign records in three semantically equivalent representations, including a real-world note-style variant derived from the Open Patients dataset, and instantiates queries using 42 question templates. Experiments on 17 LLMs show that value retrieval is generally strong, with most models exceeding 85% accuracy, while relational comparison and aggregation remain challenging, with some models scoring below 15%. Fine-tuning on medical data can reduce numeracy relative to base models by over 30%, and performance drops under note-style variation indicate LLM sensitivity to format. ClinicNumRobBench offers a rigorous testbed for clinically reliable numerical reasoning. Code and data URL are available on https://github.com/MinhVuong2000/ClinicNumRobBench.
- Abstract(参考訳): 大言語モデル (LLMs) は, 臨床質問応答と意思決定支援のために研究が進んでいるが, 安全なデプロイには, 不均一な臨床ノートにおける患者測定の信頼性の確保が必要である。
臨床数値推論のためのLCMの既存の評価は、操作レベルの範囲が限られており、主に算術演算に限られており、臨床ノート形式全体にわたる数値理解の堅牢性を評価することは稀である。
我々は,4種類の臨床数値(値検索,算術演算,関係比較,集約)を評価した1,624件の文脈探索事例のベンチマークであるCyolyNumRobBenchを紹介する。
ストレステストの堅牢性のために、CyolyNumRobBenchは、42の質問テンプレートを使用してクエリをインスタンス化するOpen patientデータセットから派生した実世界のメモスタイルの変種を含む、3つの意味論的に等価な表現で、縦方向MIMIC-IVバイタルサインレコードを提示する。
17 LLMの実験では、値検索は一般的に強く、ほとんどのモデルは85%以上の精度で、リレーショナル比較とアグリゲーションは困難であり、一部のモデルは15%以下である。
医療データの微調整は、基本モデルと比較して30%以上減少し、ノートスタイルの変動による性能低下は、フォーマットに対するLCM感受性を示す。
ClinicalNumRobBenchは、臨床的に信頼性の高い数値推論のための厳格なテストベッドを提供する。
コードとデータURLはhttps://github.com/MinhVuong2000/ClinicNumRobBenchで入手できる。
関連論文リスト
- MedArena: Comparing LLMs for Medicine-in-the-Wild Clinician Preferences [50.71326426975699]
MedArenaは医療用大規模言語モデル(LLM)のためのインタラクティブな評価プラットフォームである。
MedArenaは、2つのランダムに選択されたモデルからの応答を表示し、ユーザが好みのレスポンスを選択するように要求する。
2025年11月1日までに12台のLLMで収集された1571の選好のうち、ジェミニ2.0フラッシュシンキング、ジェミニ2.5プロ、GPT-4oがブラッドリー・テリーのレーティングで上位3モデルとなった。
論文 参考訳(メタデータ) (2026-03-13T22:30:26Z) - LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。
本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。
LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文 参考訳(メタデータ) (2026-02-18T03:59:46Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z) - Dynamic Q&A of Clinical Documents with Large Language Models [3.021316686584699]
本研究は,臨床ノートにおける動的質問応答のための大規模言語モデル(LLM)を用いた自然言語インタフェースを提案する。
様々な埋め込みモデルと高度なLLMを利用する実験は、高い計算要求にもかかわらず、ウィザード・ヴィクナの優れた精度を示している。
論文 参考訳(メタデータ) (2024-01-19T14:50:22Z) - Do We Still Need Clinical Language Models? [15.023633270864675]
比較的小さな専門的な臨床モデルでは、コンテキスト内学習のアプローチが大幅に優れていることを示す。
physioNet Credentialed Health Dataライセンスとデータ使用契約の下で使用されるコードとモデルをリリースします。
論文 参考訳(メタデータ) (2023-02-16T05:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。