Fugu-MT 論文翻訳(概要): MEDSYN: Benchmarking Multi-EviDence SYNthesis in Complex Clinical Cases for Multimodal Large Language Models

論文の概要: MEDSYN: Benchmarking Multi-EviDence SYNthesis in Complex Clinical Cases for Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2602.21950v1
Date: Wed, 25 Feb 2026 14:33:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.862265
Title: MEDSYN: Benchmarking Multi-EviDence SYNthesis in Complex Clinical Cases for Multimodal Large Language Models
Title（参考訳）: MEDSYN:マルチモーダル大言語モデルの臨床症例におけるマルチエビデンスシンセシスのベンチマーク
Authors: Boqi Chen, Xudong Liu, Jiachuan Peng, Marianne Frey-Marti, Bang Zheng, Kyle Lam, Lin Li, Jianing Qiu,
Abstract要約: MLLM(Multimodal large language model)は医学的応用において大きな可能性を示しているが、既存のベンチマークでは現実の臨床的複雑さを正しく捉えていない。 MEDSYN(MEDSYN)は,高度に複雑な臨床症例の多言語的マルチモーダル・ベンチマークであり,最大7種類の視覚的臨床証拠(CE)がある。
参考スコア（独自算出の注目度）: 16.133306478314452
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models (MLLMs) have shown great potential in medical applications, yet existing benchmarks inadequately capture real-world clinical complexity. We introduce MEDSYN, a multilingual, multimodal benchmark of highly complex clinical cases with up to 7 distinct visual clinical evidence (CE) types per case. Mirroring clinical workflow, we evaluate 18 MLLMs on differential diagnosis (DDx) generation and final diagnosis (FDx) selection. While top models often match or even outperform human experts on DDx generation, all MLLMs exhibit a much larger DDx--FDx performance gap compared to expert clinicians, indicating a failure mode in synthesis of heterogeneous CE types. Ablations attribute this failure to (i) overreliance on less discriminative textual CE ($\it{e.g.}$, medical history) and (ii) a cross-modal CE utilization gap. We introduce Evidence Sensitivity to quantify the latter and show that a smaller gap correlates with higher diagnostic accuracy. Finally, we demonstrate how it can be used to guide interventions to improve model performance. We will open-source our benchmark and code.
Abstract（参考訳）: MLLM(Multimodal large language model)は医学的応用において大きな可能性を示しているが、既存のベンチマークでは現実の臨床的複雑さを正しく捉えていない。 MEDSYN(MEDSYN)は,高度に複雑な臨床症例の多言語的マルチモーダル・ベンチマークであり,最大7種類の視覚的臨床証拠(CE)がある。臨床ワークフローを反映して,鑑別診断(DDx)と最終診断(FDx)の18種類のMLLMを評価した。上位モデルはしばしばDDx生成においてヒトの専門家と一致または成績が良く、全てのMLLMは専門医に比べてDDx-FDxパフォーマンスの差が大きい。アブレーションはこの失敗が原因である (i)差別の少ないテキストCE(\it{e g }$, medical history)及び過信 (ii)クロスモーダルCE利用ギャップ。後者を定量化するためにEvidence Sensitivityを導入し、より小さなギャップが高い診断精度と相関していることを示す。最後に、モデルパフォーマンスを改善するために介入をガイドするためにどのように使用できるかを示す。ベンチマークとコードをオープンソースにします。

関連論文リスト

Multi-View Stenosis Classification Leveraging Transformer-Based Multiple-Instance Learning Using Real-World Clinical Data [76.89269238957593]
冠動脈狭窄は心血管疾患の主要な原因であり,多発血管造影で冠動脈を解析し診断した。患者レベルの狭窄分類のためのトランスフォーマーベースマルチビューマルチインスタンス学習フレームワークであるSegmentMILを提案する。
論文参考訳（メタデータ） (2026-02-02T13:07:52Z)
Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。 LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文参考訳（メタデータ） (2025-10-21T18:10:45Z)
Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis [9.248806116103605]
医用診断用LVLMを併用したマルチモーダル検索モデルを開発した。異なるトップ検索された画像は、しばしば同じターゲットに対して異なる予測をもたらす。本モデルは,臨床分類とVQAタスクに関する医学的に事前訓練されたモデルと競合する結果を得る。
論文参考訳（メタデータ） (2025-08-24T15:06:20Z)
EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文参考訳（メタデータ） (2025-05-29T16:14:34Z)
A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-14T20:28:04Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。