論文の概要: CardioLens: Revealing the Clinical Reality Gap of MLLMs via Multi-Sequence Cardiac MRI Evaluations
- arxiv url: http://arxiv.org/abs/2606.00123v1
- Date: Thu, 28 May 2026 11:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:27.982252
- Title: CardioLens: Revealing the Clinical Reality Gap of MLLMs via Multi-Sequence Cardiac MRI Evaluations
- Title(参考訳): CardioLens:マルチシーケンス心臓MRI評価によるMLLMの臨床現実的ギャップの解明
- Authors: Zixian Su, Hongkai Zhang, Fan Gao, Encheng Su, Taiping Qu, Jingwei Guo, Nan Zhang, Hui Wang, Zhen Zhou, Kairui Bo, Yan Chen, Yue Ren, Shuai Li, Lei Xu, Henggui Zhang,
- Abstract要約: マルチシーケンス心血管磁気共鳴(CMR)のためのリーク抵抗性評価ベッドである CardioLens について紹介する。
CardioLensは473,896個のスライスと13,494個のQAペアを4D Cine, LGE, 灌流, T2強調画像に収めている。
CardioLensは24の最先端MLLMをまたいで、実際のCMRワークフローに沿ってパフォーマンスを劣化させながら、モデル全体のパフォーマンスが不十分な、相当な臨床現実のギャップを明らかにしている。
- 参考スコア(独自算出の注目度): 16.42889396398046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown strong performance on public medical benchmarks, yet existing evaluations often remain weak proxies for clinical use, relying on isolated inputs and simplified recognition-style tasks. We introduce CardioLens, a leakage-resistant evaluation testbed for multi-sequence Cardiovascular Magnetic Resonance (CMR), constructed from private hospital archives through a rigorous report-to-QA construction and verification pipeline. CardioLens contains 473,896 slices and 13,494 verified QA pairs across 4D Cine, LGE, perfusion, and T2-weighted imaging, and evaluates three stages of CMR interpretation: image understanding, report generation, and disease diagnosis. Across 24 state-of-the-art MLLMs, CardioLens reveals a substantial clinical reality gap: models perform poorly overall, with performance degrading along the real CMR workflow. Confusion analysis further shows a category-collapse failure mode, where models default to frequent abnormal categories rather than distinguishing clinically distinct findings. To rule out MLLM-compatible input construction as the primary cause, we compare random, clinically motivated, and data-driven slice selection protocols under different slice budgets; performance changes only marginally, typically by about 1%. Explicit reasoning prompts also fail to rescue performance, often making models more conservative rather than improving visual evidence use. These results show that current MLLMs remain far from reliable CMR interpretation, where clinical decisions require integrating distributed evidence across sequences, views, and temporal phases. CardioLens provides a clinically grounded testbed for developing next-generation MLLMs toward real-world clinical deployment.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、公衆医療ベンチマークにおいて高いパフォーマンスを示しているが、既存の評価は、独立した入力と単純な認識スタイルのタスクに依存する、臨床使用のための弱いプロキシのままであることが多い。
重症心血管性磁気共鳴(CMR)のためのリーク抵抗性評価ベッドであるCardioLensについて, 厳密なレポート・ツー・QA構築・検証パイプラインを用いて, 個人病院のアーカイブから構築した。
CardioLensは4D Cine, LGE, Perfusion, T2-weighted Imagingにまたがる473,896個のスライスと13,494個のQAペアを含む。
CardioLensは24の最先端MLLMをまたいで、実際のCMRワークフローに沿ってパフォーマンスを劣化させながら、モデル全体のパフォーマンスが不十分な、相当な臨床現実のギャップを明らかにしている。
コンフュージョン分析は、臨床的に異なる発見を区別するのではなく、しばしば異常なカテゴリにデフォルトとなるカテゴリー崩壊モードを示す。
MLLM互換の入力構成を主な原因とするために、異なるスライス予算の下でランダム、臨床的動機付け、およびデータ駆動スライス選択プロトコルを比較した。
明示的な推論のプロンプトもパフォーマンスを救えず、しばしば視覚的証拠の使用を改善するよりも、モデルをより保守的にする。
これらの結果は、現在のMLLMは、シークエンス、ビュー、時間相にまたがる分散エビデンスを統合する必要がある、信頼性の高いCMR解釈から遠く離れていることを示している。
CardioLensは、次世代MLLMを開発するための臨床試験ベッドを提供する。
関連論文リスト
- MMRareBench: A Rare-Disease Multimodal and Multi-Image Medical Benchmark [18.462341223913153]
MLLM(Multimodal large language model)は、一般的な疾患に対する先進的な臨床課題があるが、希少な疾患に対するパフォーマンスはほとんど検査されていない。
我々は,MMRareBenchについて,マルチモーダルおよびマルチイメージ臨床能力の評価を共同で行った最初のレア・ディスリーズ・ベンチマークについて紹介する。
論文 参考訳(メタデータ) (2026-04-12T17:53:02Z) - Lost in the Hype: Revealing and Dissecting the Performance Degradation of Medical Multimodal Large Language Models in Image Classification [14.247959730104085]
マルチモーダル大言語モデル(MLLM)は、医療画像解析の分野で前例のない応用の波を引き起こしている。
しかし、医学画像分類では、最先端の医療MLLMは従来のディープラーニングモデルと比べて一貫して性能が劣っている。
本稿では、3つの代表的な画像分類データセットにまたがる14のオープンソース医療MLLMについて広範な実験を行った。
論文 参考訳(メタデータ) (2026-04-09T15:07:26Z) - Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - LiveMedBench: A Contamination-Free Medical Benchmark for LLMs with Automated Rubric Evaluation [22.211535340726073]
LiveMedBenchは、オンライン医療コミュニティからリアルな臨床ケースを抽出する、継続的に更新されたベンチマークである。
LiveMedBenchは、38の専門医と複数の言語にまたがる2,756の現実世界のケースで構成され、16,702のユニークな評価基準と組み合わせている。
大規模な評価では、最高のパフォーマンスモデルでさえ39.2%しか達成せず、84%のモデルがカット後のケースで性能劣化を示す。
論文 参考訳(メタデータ) (2026-02-10T23:38:25Z) - Multi-View Stenosis Classification Leveraging Transformer-Based Multiple-Instance Learning Using Real-World Clinical Data [76.89269238957593]
冠動脈狭窄は心血管疾患の主要な原因であり,多発血管造影で冠動脈を解析し診断した。
患者レベルの狭窄分類のためのトランスフォーマーベースマルチビューマルチインスタンス学習フレームワークであるSegmentMILを提案する。
論文 参考訳(メタデータ) (2026-02-02T13:07:52Z) - CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding [23.353712899156417]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚認識と自然言語理解を統合することで,放射線学において顕著な進歩を遂げている。
医学的幻覚と呼ばれる臨床的に欠かせない記述をしばしば生成し、正確さと画像的アウトプットを要求される医学的応用に重大なリスクをもたらす。
我々は,タスク固有の放射線学の専門家モデルから構造化された臨床信号を統合する訓練不要かつ検索不要な推論フレームワークである臨床コントラストデコーディング(CCD)を紹介した。
論文 参考訳(メタデータ) (2025-09-27T16:01:09Z) - LGE-Guided Cross-Modality Contrastive Learning for Gadolinium-Free Cardiomyopathy Screening in Cine CMR [51.11296719862485]
CMRを用いたガドリニウムフリー心筋症スクリーニングのためのコントラシブラーニングおよびクロスモーダルアライメントフレームワークを提案する。
CMRとLate Gadolinium Enhancement (LGE) 配列の潜伏空間を整列させることにより, 本モデルでは線維症特異的な病理組織をCMR埋め込みにエンコードする。
論文 参考訳(メタデータ) (2025-08-23T07:21:23Z) - Benchmarking and Explaining Deep Learning Cortical Lesion MRI Segmentation in Multiple Sclerosis [28.192924379673862]
多発性硬化症(MS)における生体マーカーとしての皮質病変(CL)の出現
本稿では,MRIにおけるCL検出とセグメンテーションの総合ベンチマークを提案する。
医療画像のセグメンテーションのために設計された自己構成のnnU-Netフレームワークを利用し、CL検出の改善に適した適応を提案する。
論文 参考訳(メタデータ) (2025-07-16T09:56:11Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。