論文の概要: Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation
- arxiv url: http://arxiv.org/abs/2601.15645v1
- Date: Thu, 22 Jan 2026 04:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.494949
- Title: Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation
- Title(参考訳): 信頼性のある医療用LLMを目指して:医療相談における大規模言語モデルのベンチマークと信頼性評価
- Authors: Zhiyao Ren, Yibing Zhan, Siyuan Liang, Guozheng Ma, Baosheng Yu, Dacheng Tao,
- Abstract要約: 本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データを統合し,診断を行う。
本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
- 参考スコア(独自算出の注目度): 97.36081721024728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale language models (LLMs) often offer clinical judgments based on incomplete information, increasing the risk of misdiagnosis. Existing studies have primarily evaluated confidence in single-turn, static settings, overlooking the coupling between confidence and correctness as clinical evidence accumulates during real consultations, which limits their support for reliable decision-making. We propose the first benchmark for assessing confidence in multi-turn interaction during realistic medical consultations. Our benchmark unifies three types of medical data for open-ended diagnostic generation and introduces an information sufficiency gradient to characterize the confidence-correctness dynamics as evidence increases. We implement and compare 27 representative methods on this benchmark; two key insights emerge: (1) medical data amplifies the inherent limitations of token-level and consistency-level confidence methods, and (2) medical reasoning must be evaluated for both diagnostic accuracy and information completeness. Based on these insights, we present MedConf, an evidence-grounded linguistic self-assessment framework that constructs symptom profiles via retrieval-augmented generation, aligns patient information with supporting, missing, and contradictory relations, and aggregates them into an interpretable confidence estimate through weighted integration. Across two LLMs and three medical datasets, MedConf consistently outperforms state-of-the-art methods on both AUROC and Pearson correlation coefficient metrics, maintaining stable performance under conditions of information insufficiency and multimorbidity. These results demonstrate that information adequacy is a key determinant of credible medical confidence modeling, providing a new pathway toward building more reliable and interpretable large medical models.
- Abstract(参考訳): 大規模言語モデル (LLMs) はしばしば不完全情報に基づく臨床診断を提供し、誤診のリスクを増大させる。
既存の研究は、信頼度と正しさの結合を見越して、信頼度と静的な設定の信頼性を評価してきた。
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データをオープンエンド診断生成に統一し,証拠の増加とともに信頼性・正確性のダイナミクスを特徴付ける情報充実度勾配を導入する。
このベンチマークで27の代表的な手法を実装し比較する。(1)医療データはトークンレベルと一貫性レベルの信頼性メソッドの固有の限界を増幅し、(2)診断精度と情報完全性の両方で医学的推論を評価する必要がある。
これらの知見に基づいて,MedConfは,検索強化世代による症状プロファイルの構築,患者情報とサポート,欠落,矛盾関係の整合,重み付け統合による解釈可能な信頼度推定に集約する,エビデンスに基づく言語自己評価フレームワークである。
2つのLSMと3つの医療データセットにわたって、MedConfはAUROCとPearsonの相関係数の指標で常に最先端の手法を上回り、情報不足とマルチモルビディティの条件下で安定した性能を維持している。
これらの結果から,情報妥当性は信頼性の高い医療信頼モデルの重要な決定要因であり,より信頼性が高く解釈可能な大規模医療モデルを構築するための新たな道筋となることが示唆された。
関連論文リスト
- Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - MediEval: A Unified Medical Benchmark for Patient-Contextual and Knowledge-Grounded Reasoning in LLMs [7.2159153945746795]
既存の評価は、単独で実際の医療知識をテストするか、患者レベルの推論を正当性を検証せずに評価し、重大なギャップを残している。
我々はMIMIC-IV電子健康記録とUMLSやその他のバイオメディカル語彙から構築された統一知識ベースを結びつけるベンチマークであるMediEvalを紹介する。
MediEvalは、実際の患者コンテキスト内で、さまざまな事実的および反ファクト的医療声明を生成し、4つのクアドラント・フレームワーク間で体系的な評価を可能にする。
論文 参考訳(メタデータ) (2025-12-23T22:52:24Z) - Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models [15.530083855947987]
我々は,Med-RwR を用いた最初のマルチモーダル医療推論フレームワークを提案する。
Med-RwRは、推論中に観察された症状やドメイン固有の医療概念を問い合わせることで、外部知識を積極的に回収する。
様々な公開医療ベンチマークの評価は、Med-RwRのベースラインモデルに対する大幅な改善を示している。
論文 参考訳(メタデータ) (2025-10-21T05:18:18Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Uncertainty-aware abstention in medical diagnosis based on medical texts [87.88110503208016]
本研究は,AI支援医療診断における信頼性の重要課題について論じる。
本研究は,診断に自信がなければ,診断システムによる意思決定の回避を可能にする選択予測手法に焦点をあてる。
我々は、選択予測タスクにおける信頼性を高めるための新しい最先端手法であるHUQ-2を紹介する。
論文 参考訳(メタデータ) (2025-02-25T10:15:21Z) - StratMed: Relevance Stratification between Biomedical Entities for
Sparsity on Medication Recommendation [9.296433860766165]
StratMedは、長い尾の問題を克服し、スパースデータの完全な学習を実現する成層戦略である。
また、薬品の組み合わせの安全性と正確性に関する相互制約の問題に対処するために、デュアルプロパティネットワークを利用する。
本モデルでは,安全性リスクを15.08%削減し,精度を0.36%向上し,トレーニング時間消費を81.66%削減する。
論文 参考訳(メタデータ) (2023-08-31T14:59:32Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。