論文の概要: Medical Large Vision Language Models with Multi-Image Visual Ability
- arxiv url: http://arxiv.org/abs/2505.19031v1
- Date: Sun, 25 May 2025 08:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.851638
- Title: Medical Large Vision Language Models with Multi-Image Visual Ability
- Title(参考訳): マルチイメージ視覚能力を持つ医用大規模視覚言語モデル
- Authors: Xikai Yang, Juzheng Miao, Yuchen Yuan, Jiaze Wang, Qi Dou, Jinpeng Li, Pheng-Ann Heng,
- Abstract要約: 83.2Kの医療用マルチイメージQAペアからなるMed-MIM命令データセットを提案する。
我々は,マンティスとLLaVA-Medを微調整し,MIM-LLaVA-MedとMed-Mantisの2種類の専門医用VLMを作製した。
また,LVLMの医用マルチイメージ理解能力を評価するために,Med-MIMベンチマークを開発した。
- 参考スコア(独自算出の注目度): 46.889345205047675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical large vision-language models (LVLMs) have demonstrated promising performance across various single-image question answering (QA) benchmarks, yet their capability in processing multi-image clinical scenarios remains underexplored. Unlike single image based tasks, medical tasks involving multiple images often demand sophisticated visual understanding capabilities, such as temporal reasoning and cross-modal analysis, which are poorly supported by current medical LVLMs. To bridge this critical gap, we present the Med-MIM instruction dataset, comprising 83.2K medical multi-image QA pairs that span four types of multi-image visual abilities (temporal understanding, reasoning, comparison, co-reference). Using this dataset, we fine-tune Mantis and LLaVA-Med, resulting in two specialized medical VLMs: MIM-LLaVA-Med and Med-Mantis, both optimized for multi-image analysis. Additionally, we develop the Med-MIM benchmark to comprehensively evaluate the medical multi-image understanding capabilities of LVLMs. We assess eight popular LVLMs, including our two models, on the Med-MIM benchmark. Experimental results show that both Med-Mantis and MIM-LLaVA-Med achieve superior performance on the held-in and held-out subsets of the Med-MIM benchmark, demonstrating that the Med-MIM instruction dataset effectively enhances LVLMs' multi-image understanding capabilities in the medical domain.
- Abstract(参考訳): 医療用大規模視覚言語モデル (LVLM) は、様々な単画像質問応答 (QA) ベンチマークで有望な性能を示したが、多画像臨床シナリオの処理能力はまだ未定である。
単一の画像ベースタスクとは異なり、複数の画像を含む医療タスクは、時間的推論や相互モーダル分析のような高度な視覚的理解能力を必要とすることが多く、現在の医療用LVLMでは不十分である。
この重要なギャップを埋めるために、83.2Kの医療用マルチイメージQAペアからなるMed-MIM命令データセットを提示する(時間的理解、推論、比較、コレファレンス)。
このデータセットを用いて、マルチイメージ分析に最適化されたMIM-LLaVA-MedとMed-Mantisの2つの専門的な医療用VLMを実現する。
さらに,LVLMの医用マルチイメージ理解能力を総合的に評価するためのMed-MIMベンチマークを開発した。
Med-MIMベンチマークで2つのモデルを含む8つのLVLMを評価した。
実験結果から,Med-MIMベンチマークのホールドインおよびホールドアウトサブセットにおいて,Med-MIM命令データセットがLVLMのマルチイメージ理解能力を効果的に向上することを示す。
関連論文リスト
- MedM-VL: What Makes a Good Medical LVLM? [17.94998411263113]
大規模視覚言語モデル(LVLM)は、複雑な医療課題を解決するための新しいソリューションを提供する。
2次元および3次元の医療用LVLMのモデルアーキテクチャとトレーニング戦略を探求するために、人気のあるLLaVAフレームワークを構築した。
MedM-VL-2D, MedM-VL-CT-Chest, MedM-VL-CT-Chestの2つの事前訓練モデルをリリースする。
論文 参考訳(メタデータ) (2025-04-06T01:44:46Z) - Training Medical Large Vision-Language Models with Abnormal-Aware Feedback [57.98393950821579]
本報告では,Unveiling Medicalnomaitiesを用いたUMed-LVLMを提案する。
本稿では,GPT-4Vを用いた診断手法を提案する。
実験の結果, UMed-LVLMは既存のMed-LVLMを上回り, 医学的異常を同定し, 理解していることがわかった。
論文 参考訳(メタデータ) (2025-01-02T17:37:20Z) - On the Compositional Generalization of Multimodal LLMs for Medical Imaging [14.419190976672065]
マルチモーダル大言語モデル(MLLM)は、医療分野において大きな可能性を秘めている。
それらの能力は、特定の医療領域における不十分なデータによって制限されることが多く、一般化のためにMLLMによってどのような種類の画像が使用できるかを理解する必要性を強調している。
本稿では,合成一般化(CG)モデルを用いた学習要素の組換えによる新しい組み合わせの理解手法を提案する。
実験の結果、MLLMはCGを使って見えない医療画像を理解することができ、マルチタスクトレーニングで観察される一般化の主要因の1つとしてCGを特定した。
論文 参考訳(メタデータ) (2024-12-28T07:50:00Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale [29.956053068653734]
私たちは13万の医療用VQAサンプルでPubMedVisionデータセットを作成します。
PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionを訓練し、医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-27T15:50:41Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。