論文の概要: MEDSYN: Benchmarking Multi-EviDence SYNthesis in Complex Clinical Cases for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.21950v1
- Date: Wed, 25 Feb 2026 14:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.862265
- Title: MEDSYN: Benchmarking Multi-EviDence SYNthesis in Complex Clinical Cases for Multimodal Large Language Models
- Title(参考訳): MEDSYN:マルチモーダル大言語モデルの臨床症例におけるマルチエビデンスシンセシスのベンチマーク
- Authors: Boqi Chen, Xudong Liu, Jiachuan Peng, Marianne Frey-Marti, Bang Zheng, Kyle Lam, Lin Li, Jianing Qiu,
- Abstract要約: MLLM(Multimodal large language model)は医学的応用において大きな可能性を示しているが、既存のベンチマークでは現実の臨床的複雑さを正しく捉えていない。
MEDSYN(MEDSYN)は,高度に複雑な臨床症例の多言語的マルチモーダル・ベンチマークであり,最大7種類の視覚的臨床証拠(CE)がある。
- 参考スコア(独自算出の注目度): 16.133306478314452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown great potential in medical applications, yet existing benchmarks inadequately capture real-world clinical complexity. We introduce MEDSYN, a multilingual, multimodal benchmark of highly complex clinical cases with up to 7 distinct visual clinical evidence (CE) types per case. Mirroring clinical workflow, we evaluate 18 MLLMs on differential diagnosis (DDx) generation and final diagnosis (FDx) selection. While top models often match or even outperform human experts on DDx generation, all MLLMs exhibit a much larger DDx--FDx performance gap compared to expert clinicians, indicating a failure mode in synthesis of heterogeneous CE types. Ablations attribute this failure to (i) overreliance on less discriminative textual CE ($\it{e.g.}$, medical history) and (ii) a cross-modal CE utilization gap. We introduce Evidence Sensitivity to quantify the latter and show that a smaller gap correlates with higher diagnostic accuracy. Finally, we demonstrate how it can be used to guide interventions to improve model performance. We will open-source our benchmark and code.
- Abstract(参考訳): MLLM(Multimodal large language model)は医学的応用において大きな可能性を示しているが、既存のベンチマークでは現実の臨床的複雑さを正しく捉えていない。
MEDSYN(MEDSYN)は,高度に複雑な臨床症例の多言語的マルチモーダル・ベンチマークであり,最大7種類の視覚的臨床証拠(CE)がある。
臨床ワークフローを反映して,鑑別診断(DDx)と最終診断(FDx)の18種類のMLLMを評価した。
上位モデルはしばしばDDx生成においてヒトの専門家と一致または成績が良く、全てのMLLMは専門医に比べてDDx-FDxパフォーマンスの差が大きい。
アブレーションはこの失敗が原因である
(i)差別の少ないテキストCE(\it{e g }$, medical history)及び過信
(ii)クロスモーダルCE利用ギャップ。
後者を定量化するためにEvidence Sensitivityを導入し、より小さなギャップが高い診断精度と相関していることを示す。
最後に、モデルパフォーマンスを改善するために介入をガイドするためにどのように使用できるかを示す。
ベンチマークとコードをオープンソースにします。
関連論文リスト
- Uncertainty-Aware Vision-Language Segmentation for Medical Imaging [12.545486211087791]
医療診断のための新しい不確実性を考慮したマルチモーダルセグメンテーションフレームワークを提案する。
本稿では,高効率なクロスモーダル融合を実現するために,軽量なステートスペースミキサ(SSMix)を備えたModality Decoding Attention Block (MoDAB)を提案する。
本研究は,視覚言語医学的セグメンテーションタスクにおいて,不確実性モデリングと構造化モダリティアライメントを取り入れることの重要性を強調した。
論文 参考訳(メタデータ) (2026-02-16T06:27:51Z) - Multi-View Stenosis Classification Leveraging Transformer-Based Multiple-Instance Learning Using Real-World Clinical Data [76.89269238957593]
冠動脈狭窄は心血管疾患の主要な原因であり,多発血管造影で冠動脈を解析し診断した。
患者レベルの狭窄分類のためのトランスフォーマーベースマルチビューマルチインスタンス学習フレームワークであるSegmentMILを提案する。
論文 参考訳(メタデータ) (2026-02-02T13:07:52Z) - Sim4Seg: Boosting Multimodal Multi-disease Medical Diagnosis Segmentation with Region-Aware Vision-Language Similarity Masks [54.00822479127598]
医療診断(MDS)という医用視覚言語タスクについて紹介する。
MDSは、医療画像に対する臨床クエリを理解し、対応するセグメンテーションマスクと診断結果を生成することを目的としている。
診断セグメンテーションの性能を向上させる新しいフレームワークであるSim4Segを提案する。
論文 参考訳(メタデータ) (2025-11-10T03:22:42Z) - DiA-gnostic VLVAE: Disentangled Alignment-Constrained Vision Language Variational AutoEncoder for Robust Radiology Reporting with Missing Modalities [3.5045368873011924]
本稿では,Dentangled Alignment を用いた頑健な放射線診断を行う DiA-gnostic VLVAE を提案する。
我々のフレームワークは、共有機能とモダリティ固有の機能を混在させることにより、モダリティの欠如に耐性を持つように設計されている。
コンパクトなLLaMA-Xデコーダは、これらの不整合表現を使用してレポートを効率的に生成する。
論文 参考訳(メタデータ) (2025-11-08T11:08:27Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - Lightweight Joint Optimization of General-Purpose Vision-Language Models and Retrievers for RAG-Based Medical Diagnosis [9.248806116103605]
医用診断用LVLMを併用したマルチモーダル検索モデルを開発した。
異なるトップ検索された画像は、しばしば同じターゲットに対して異なる予測をもたらす。
本モデルは,臨床分類とVQAタスクに関する医学的に事前訓練されたモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2025-08-24T15:06:20Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。
本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T20:28:04Z) - Any-to-Any Vision-Language Model for Multimodal X-ray Imaging and Radiological Report Generation [26.589728923739596]
マルチモーダル医療データ生成に特化して設計されたフレームワークを提案する。
多視点胸部X線の発生と臨床報告により、汎用視覚言語モデルと医療の専門的要件とのギャップを埋める。
我々のフレームワークは、下流疾患分類タスクの実際のデータと比較して、同等またはそれ以上の性能を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:07:24Z) - Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。
マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。
我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文 参考訳(メタデータ) (2024-11-06T10:44:15Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。