論文の概要: CrossMed: A Multimodal Cross-Task Benchmark for Compositional Generalization in Medical Imaging
- arxiv url: http://arxiv.org/abs/2511.11034v1
- Date: Fri, 14 Nov 2025 07:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.481747
- Title: CrossMed: A Multimodal Cross-Task Benchmark for Compositional Generalization in Medical Imaging
- Title(参考訳): CrossMed: 医用画像における合成一般化のためのマルチモーダルクロスタスクベンチマーク
- Authors: Pooja Singh, Siddhant Ujjain, Tapan Kumar Gandhi, Sandeep Kumar,
- Abstract要約: 医用視覚言語モデルの合成一般化(CG)を評価するベンチマークであるCrossMedを紹介する。
4つの公開データセットを統一的な視覚的質問応答(VQA)フォーマットに再構成し、20,200の複数選択QAインスタンスを生成する。
関連する分割で訓練されたモデルは83.2%の分類精度と0.75のセグメンテーションcIoUを実現し、非関連条件とゼロオーバーラップ条件では性能が著しく低下する。
- 参考スコア(独自算出の注目度): 2.9857131541387827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models have enabled unified processing of visual and textual inputs, offering promising applications in general-purpose medical AI. However, their ability to generalize compositionally across unseen combinations of imaging modality, anatomy, and task type remains underexplored. We introduce CrossMed, a benchmark designed to evaluate compositional generalization (CG) in medical multimodal LLMs using a structured Modality-Anatomy-Task (MAT) schema. CrossMed reformulates four public datasets, CheXpert (X-ray classification), SIIM-ACR (X-ray segmentation), BraTS 2020 (MRI classification and segmentation), and MosMedData (CT classification) into a unified visual question answering (VQA) format, resulting in 20,200 multiple-choice QA instances. We evaluate two open-source multimodal LLMs, LLaVA-Vicuna-7B and Qwen2-VL-7B, on both Related and Unrelated MAT splits, as well as a zero-overlap setting where test triplets share no Modality, Anatomy, or Task with the training data. Models trained on Related splits achieve 83.2 percent classification accuracy and 0.75 segmentation cIoU, while performance drops significantly under Unrelated and zero-overlap conditions, demonstrating the benchmark difficulty. We also show cross-task transfer, where segmentation performance improves by 7 percent cIoU even when trained using classification-only data. Traditional models (ResNet-50 and U-Net) show modest gains, confirming the broad utility of the MAT framework, while multimodal LLMs uniquely excel at compositional generalization. CrossMed provides a rigorous testbed for evaluating zero-shot, cross-task, and modality-agnostic generalization in medical vision-language models.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの最近の進歩は、視覚的およびテキスト的入力の統一的な処理を可能にし、汎用医療AIに有望な応用を提供する。
しかし、画像のモダリティ、解剖学、タスクタイプなど、目に見えない組み合わせで構成を一般化する能力は、いまだ研究されていない。
医療用マルチモーダルLCMにおける構成一般化(CG)を評価するためのベンチマークであるCrossMedについて,MAT (Structured Modality-Anatomy-Task) スキーマを用いて紹介する。
CrossMedは、CheXpert(X線分類)、SIIM-ACR(X線分割)、BraTS 2020(MRI分類とセグメンテーション)、MosMedData(CT分類)の4つのパブリックデータセットを、統一された視覚的質問応答(VQA)フォーマットに再構成し、20,200のマルチチョイスQAインスタンスを生成する。
LLaVA-Vicuna-7B と Qwen2-VL-7B という2つのオープンソースマルチモーダル LLM を、関連する MAT と無関係の MAT の分割と、テスト三重項がモダリティ、解剖学、タスクを共有しないゼロオーバーラップ設定で評価した。
関連する分割で訓練されたモデルは、83.2%の分類精度と0.75のセグメンテーションcIoUを達成する一方、非関連条件とゼロオーバーラップ条件では性能が著しく低下し、ベンチマークの難しさを示している。
また,分類専用データを用いてトレーニングした場合でも,セグメンテーション性能が7%向上するクロスタスク転送を示す。
従来のモデル(ResNet-50とU-Net)は、MATフレームワークの幅広い実用性を確認しつつ、構成一般化において独特に優れている。
CrossMedは、医療ビジョン言語モデルにおけるゼロショット、クロスタスク、モダリティ非依存の一般化を評価するための厳密なテストベッドを提供する。
関連論文リスト
- SurgMLLMBench: A Multimodal Large Language Model Benchmark Dataset for Surgical Scene Understanding [8.20483591990742]
本稿では,対話型マルチモーダル大言語モデルの開発と評価のための統一ベンチマークであるSurgMLLMBenchを紹介する。
ピクセルレベルの機器セグメンテーションマスクと、腹腔鏡、ロボット支援、マイクロサージカルドメインにまたがる構造化VQAアノテーションを統合している。
ドメイン間で一貫したパフォーマンスを実現し、目に見えないデータセットに効果的に一般化する。
論文 参考訳(メタデータ) (2025-11-26T12:44:51Z) - Medverse: A Universal Model for Full-Resolution 3D Medical Image Segmentation, Transformation and Enhancement [15.28003304776022]
インコンテキスト学習は、普遍的な医用画像解析に有望なパラダイムを提供する。
我々は22のデータセットで訓練された3次元医用画像の汎用ICLモデルである textbfMedverse を提案する。
Medverseは、予測を粗いものから細かいものへと段階的に洗練する、次世代の自己回帰型インコンテキスト学習フレームワークを採用している。
論文 参考訳(メタデータ) (2025-09-11T08:10:49Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - PiCME: Pipeline for Contrastive Modality Evaluation and Encoding in the MIMIC Dataset [16.263862005367667]
マルチモーダル深層学習は、多様な患者データを統合することで臨床予測を改善することを約束する。
対照的な学習は、タスク間で再利用可能な統一表現を生成することによって、この統合を促進する。
PiCMEはMIMICのすべてのモダリティの組み合わせでコントラスト学習をスケールした最初の企業である。
論文 参考訳(メタデータ) (2025-07-03T20:45:37Z) - Multimodal Masked Autoencoder Pre-training for 3D MRI-Based Brain Tumor Analysis with Missing Modalities [0.0]
BM-MAEはマルチモーダルMRIデータに適したマスク付き画像モデリング事前学習戦略である。
利用可能なモダリティの組み合わせにシームレスに適応し、モダリティ内情報とモダリティ間情報の両方をキャプチャするリッチな表現を抽出する。
欠落したモダリティを迅速かつ効率的に再構築し、その実用的価値を強調します。
論文 参考訳(メタデータ) (2025-05-01T14:51:30Z) - Exploring Compositional Generalization of Multimodal LLMs for Medical Imaging [14.419190976672065]
マルチモーダルな大言語モデル(MLLM)は、その強力な一般化能力のため、分析にますます活用されている。
合成一般化(CG)をモデルに導入し,新しい組み合わせを理解する能力について検討した。
実験の結果、MLLMはCGを使って見えない医療画像を理解することができ、マルチタスクトレーニングで観察される一般化の主要因の1つとしてCGを特定した。
論文 参考訳(メタデータ) (2024-12-28T07:50:00Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - MedFuse: Multi-modal fusion with clinical time-series data and chest
X-ray images [3.6615129560354527]
マルチモーダルフュージョンアプローチは、異なるデータソースからの情報を統合することを目的としている。
オーディオ・ビジュアル・アプリケーションのような自然なデータセットとは異なり、医療におけるデータは非同期に収集されることが多い。
We propose MedFuse, a conceptly simple yet promising LSTM-based fusion module that can accommodate uni-modal as multi-modal input。
論文 参考訳(メタデータ) (2022-07-14T15:59:03Z) - Competence-based Multimodal Curriculum Learning for Medical Report
Generation [98.10763792453925]
本稿では,コンピテンスベースのマルチモーダルカリキュラム学習フレームワーク(CMCL)を提案する。
具体的には、CMCLは放射線学者の学習過程をシミュレートし、段階的にモデルを最適化する。
パブリックIU-XrayとMIMIC-CXRデータセットの実験は、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができることを示している。
論文 参考訳(メタデータ) (2022-06-24T08:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。