論文の概要: Multi-Agent Reasoning with Consistency Verification Improves Uncertainty Calibration in Medical MCQA
- arxiv url: http://arxiv.org/abs/2603.24481v1
- Date: Wed, 25 Mar 2026 16:22:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.386694
- Title: Multi-Agent Reasoning with Consistency Verification Improves Uncertainty Calibration in Medical MCQA
- Title(参考訳): 医用MCQAにおける整合性検証によるマルチエージェント推論による不確実性校正の改善
- Authors: John Ray B. Martinez,
- Abstract要約: マルチエージェントフレームワークはドメイン固有の特殊エージェントとTwo-Phase VerificationとS-Score Weighted Fusionを組み合わせたものだ。
4つの専門エージェントがQwen2.5-7B-Instructを使用して独立した診断を生成する。
Sスコアは最終回答を選択する重み付き融合戦略を推進し、信頼性を報告している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Miscalibrated confidence scores are a practical obstacle to deploying AI in clinical settings. A model that is always overconfident offers no useful signal for deferral. We present a multi-agent framework that combines domain-specific specialist agents with Two-Phase Verification and S-Score Weighted Fusion to improve both calibration and discrimination in medical multiple-choice question answering. Four specialist agents (respiratory, cardiology, neurology, gastroenterology) generate independent diagnoses using Qwen2.5-7B-Instruct. Each diagnosis is then subjected to a two-phase self-verification process that measures internal consistency and produces a Specialist Confidence Score (S-score). The S-scores drive a weighted fusion strategy that selects the final answer and calibrates the reported confidence. We evaluate across four experimental settings, covering 100-question and 250-question high-disagreement subsets of both MedQA-USMLE and MedMCQA. Calibration improvement is the central finding, with ECE reduced by 49-74% across all four settings, including the harder MedMCQA benchmark where these gains persist even when absolute accuracy is constrained by knowledge-intensive recall demands. On MedQA-250, the full system achieves ECE = 0.091 (74.4% reduction over the single-specialist baseline) and AUROC = 0.630 (+0.056) at 59.2% accuracy. Ablation analysis identifies Two-Phase Verification as the primary calibration driver and multi-agent reasoning as the primary accuracy driver. These results establish that consistency-based verification produces more reliable uncertainty estimates across diverse medical question types, providing a practical confidence signal for deferral in safety-critical clinical AI applications.
- Abstract(参考訳): ミススキャリブレーションされた信頼スコアは、臨床環境でAIをデプロイする実践的な障害である。
常に自信過剰なモデルは、推論に有用な信号を提供しない。
本稿では,ドメイン特化専門エージェントと2相検証とSスコア重み融合を組み合わせたマルチエージェント・フレームワークを提案する。
Qwen2.5-7B-インストラクトを用いて4つの専門医(呼吸、心臓、神経学、胃腸科学)が独立した診断を行う。
それぞれの診断は、内部の一貫性を測定し、Sスコア(Specialist Confidence Score)を生成する2段階の自己検証プロセスによって行われる。
Sスコアは、最終回答を選択し、報告された自信を校正する重み付き融合戦略を駆動する。
我々は,MedQA-USMLE と MedMCQA のそれぞれ 100-question と 250-question の高分解能サブセットについて,4つの実験条件で評価した。
キャリブレーションの改善は中心的な発見であり、ECEは4つの設定すべてで49-74%削減されている。
MedQA-250では、ECE = 0.091 (74.4%)、AUROC = 0.630 (+0.056) を59.2%の精度で達成している。
アブレーション解析では、二相検証を一次校正ドライバとし、マルチエージェント推論を一次精度ドライバと同定する。
これらの結果から, 整合性に基づく検証により, 様々な医学的問題の種類にわたる信頼性の高い不確実性評価が得られ, 安全クリティカルな臨床AI応用において, 決定的な信頼性信号が得られた。
関連論文リスト
- Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - A Multi-Agent Framework for Medical AI: Leveraging Fine-Tuned GPT, LLaMA, and DeepSeek R1 for Evidence-Based and Bias-Aware Clinical Query Processing [0.4349324020366305]
大規模言語モデル(LLM)は、医療問題に対する回答を約束するが、臨床的使用は、弱い検証、不十分な証拠の根拠、信頼できない信頼のシグナルによって制限される。
本稿では,補完的なLCMとエビデンス検索,不確実性推定,バイアスチェックを組み合わせて回答信頼性を向上させるマルチエージェント医療QAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T14:17:27Z) - Towards Reliable Medical LLMs: Benchmarking and Enhancing Confidence Estimation of Large Language Models in Medical Consultation [97.36081721024728]
本稿では,現実的な医療相談におけるマルチターンインタラクションの信頼性を評価するための最初のベンチマークを提案する。
本ベンチマークでは,3種類の医療データを統合し,診断を行う。
本稿では,エビデンスを基盤とした言語自己評価フレームワークであるMedConfを紹介する。
論文 参考訳(メタデータ) (2026-01-22T04:51:39Z) - Medical priority fusion: achieving dual optimization of sensitivity and interpretability in nipt anomaly detection [0.0]
臨床機械学習は、高い医療応用において重要なジレンマに直面している。
非侵襲的出生前検査(NIPT)では特にパラドックスが急性化しており、染色体異常が重篤な臨床結果をもたらす。
本稿では,この基本的なトレードオフを解決するための制約付き多目的最適化フレームワークである医療優先融合(MPF)を紹介する。
論文 参考訳(メタデータ) (2025-09-22T15:49:20Z) - A Fully Automatic Framework for Intracranial Pressure Grading: Integrating Keyframe Identification, ONSD Measurement and Clinical Data [3.6652537579778106]
頭蓋内圧(ICP)上昇は脳機能に深刻な脅威をもたらし、時間的介入の監視を必要とする。
OnSD測定と臨床データを統合したICPグレーティングのための完全自動2段階フレームワークを提案する。
評価精度は0.845 pm 0.071$, 独立試験精度0.786であり, 従来のしきい値法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-11T11:37:48Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - Enhancing Diagnostic Accuracy through Multi-Agent Conversations: Using Large Language Models to Mitigate Cognitive Bias [5.421033429862095]
臨床的意思決定における認知的バイアスは、診断の誤りや患者下結果に大きく寄与する。
本研究では,多エージェントフレームワークの利用を通じて,これらのバイアスを軽減するために,大規模言語モデルが果たす役割について検討する。
論文 参考訳(メタデータ) (2024-01-26T01:35:50Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。