論文の概要: CrossMed: A Multimodal Cross-Task Benchmark for Compositional Generalization in Medical Imaging
- arxiv url: http://arxiv.org/abs/2511.11034v1
- Date: Fri, 14 Nov 2025 07:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.481747
- Title: CrossMed: A Multimodal Cross-Task Benchmark for Compositional Generalization in Medical Imaging
- Title(参考訳): CrossMed: 医用画像における合成一般化のためのマルチモーダルクロスタスクベンチマーク
- Authors: Pooja Singh, Siddhant Ujjain, Tapan Kumar Gandhi, Sandeep Kumar,
- Abstract要約: 医用視覚言語モデルの合成一般化(CG)を評価するベンチマークであるCrossMedを紹介する。
4つの公開データセットを統一的な視覚的質問応答(VQA)フォーマットに再構成し、20,200の複数選択QAインスタンスを生成する。
関連する分割で訓練されたモデルは83.2%の分類精度と0.75のセグメンテーションcIoUを実現し、非関連条件とゼロオーバーラップ条件では性能が著しく低下する。
- 参考スコア(独自算出の注目度): 2.9857131541387827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models have enabled unified processing of visual and textual inputs, offering promising applications in general-purpose medical AI. However, their ability to generalize compositionally across unseen combinations of imaging modality, anatomy, and task type remains underexplored. We introduce CrossMed, a benchmark designed to evaluate compositional generalization (CG) in medical multimodal LLMs using a structured Modality-Anatomy-Task (MAT) schema. CrossMed reformulates four public datasets, CheXpert (X-ray classification), SIIM-ACR (X-ray segmentation), BraTS 2020 (MRI classification and segmentation), and MosMedData (CT classification) into a unified visual question answering (VQA) format, resulting in 20,200 multiple-choice QA instances. We evaluate two open-source multimodal LLMs, LLaVA-Vicuna-7B and Qwen2-VL-7B, on both Related and Unrelated MAT splits, as well as a zero-overlap setting where test triplets share no Modality, Anatomy, or Task with the training data. Models trained on Related splits achieve 83.2 percent classification accuracy and 0.75 segmentation cIoU, while performance drops significantly under Unrelated and zero-overlap conditions, demonstrating the benchmark difficulty. We also show cross-task transfer, where segmentation performance improves by 7 percent cIoU even when trained using classification-only data. Traditional models (ResNet-50 and U-Net) show modest gains, confirming the broad utility of the MAT framework, while multimodal LLMs uniquely excel at compositional generalization. CrossMed provides a rigorous testbed for evaluating zero-shot, cross-task, and modality-agnostic generalization in medical vision-language models.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの最近の進歩は、視覚的およびテキスト的入力の統一的な処理を可能にし、汎用医療AIに有望な応用を提供する。
しかし、画像のモダリティ、解剖学、タスクタイプなど、目に見えない組み合わせで構成を一般化する能力は、いまだ研究されていない。
医療用マルチモーダルLCMにおける構成一般化(CG)を評価するためのベンチマークであるCrossMedについて,MAT (Structured Modality-Anatomy-Task) スキーマを用いて紹介する。
CrossMedは、CheXpert(X線分類)、SIIM-ACR(X線分割)、BraTS 2020(MRI分類とセグメンテーション)、MosMedData(CT分類)の4つのパブリックデータセットを、統一された視覚的質問応答(VQA)フォーマットに再構成し、20,200のマルチチョイスQAインスタンスを生成する。
LLaVA-Vicuna-7B と Qwen2-VL-7B という2つのオープンソースマルチモーダル LLM を、関連する MAT と無関係の MAT の分割と、テスト三重項がモダリティ、解剖学、タスクを共有しないゼロオーバーラップ設定で評価した。
関連する分割で訓練されたモデルは、83.2%の分類精度と0.75のセグメンテーションcIoUを達成する一方、非関連条件とゼロオーバーラップ条件では性能が著しく低下し、ベンチマークの難しさを示している。
また,分類専用データを用いてトレーニングした場合でも,セグメンテーション性能が7%向上するクロスタスク転送を示す。
従来のモデル(ResNet-50とU-Net)は、MATフレームワークの幅広い実用性を確認しつつ、構成一般化において独特に優れている。
CrossMedは、医療ビジョン言語モデルにおけるゼロショット、クロスタスク、モダリティ非依存の一般化を評価するための厳密なテストベッドを提供する。
関連論文リスト
- MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities [0.0]
BM-MAEはマルチモーダルMRIデータに適したマスク付き画像モデリング事前学習戦略である。
利用可能なモダリティの組み合わせにシームレスに適応し、モダリティ内情報とモダリティ間情報の両方をキャプチャするリッチな表現を抽出する。
欠落したモダリティを迅速かつ効率的に再構築し、その実用的価値を強調します。
論文 参考訳(メタデータ) (2025-05-01T14:51:30Z) - Exploring Compositional Generalization of Multimodal LLMs for Medical Imaging [14.419190976672065]
マルチモーダルな大言語モデル(MLLM)は、その強力な一般化能力のため、分析にますます活用されている。
合成一般化(CG)をモデルに導入し,新しい組み合わせを理解する能力について検討した。
実験の結果、MLLMはCGを使って見えない医療画像を理解することができ、マルチタスクトレーニングで観察される一般化の主要因の1つとしてCGを特定した。
論文 参考訳(メタデータ) (2024-12-28T07:50:00Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MedFuse: Multi-modal fusion with clinical time-series data and chest
X-ray images [3.6615129560354527]
マルチモーダルフュージョンアプローチは、異なるデータソースからの情報を統合することを目的としている。
オーディオ・ビジュアル・アプリケーションのような自然なデータセットとは異なり、医療におけるデータは非同期に収集されることが多い。
We propose MedFuse, a conceptly simple yet promising LSTM-based fusion module that can accommodate uni-modal as multi-modal input。
論文 参考訳(メタデータ) (2022-07-14T15:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。