論文の概要: A Lightweight Large Vision-language Model for Multimodal Medical Images
- arxiv url: http://arxiv.org/abs/2504.05575v1
- Date: Tue, 08 Apr 2025 00:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:57.444628
- Title: A Lightweight Large Vision-language Model for Multimodal Medical Images
- Title(参考訳): マルチモーダル医用画像のための軽量大規模視覚言語モデル
- Authors: Belal Alsinglawi, Chris McCarthy, Sara Webb, Christopher Fluke, Navid Toosy Saidy,
- Abstract要約: VQA(Messical Visual Question Answering)は、医療画像の解釈と臨床質問への回答を可能にすることで、臨床的意思決定を強化する。
画像特徴抽出のためのBiomedCLIPとテキスト処理のためのLLaMA-3を統合した軽量マルチモーダルVQAモデルを提案する。
本結果は,オープンエンドの質問に対して73.4%の精度を示し,既存のモデルを超え,現実の医療応用の可能性を検証するものである。
- 参考スコア(独自算出の注目度): 0.06990493129893112
- License:
- Abstract: Medical Visual Question Answering (VQA) enhances clinical decision-making by enabling systems to interpret medical images and answer clinical queries. However, developing efficient, high-performance VQA models is challenging due to the complexity of medical imagery and diverse modalities. In this paper, we introduce a lightweight, multimodal VQA model integrating BiomedCLIP for image feature extraction and LLaMA-3 for text processing. Designed for medical VQA tasks, our model achieves state-of-the-art performance on the OmniMedVQA dataset. With approximately 8 billion parameters, it requires only two NVIDIA 40 GB A100 GPUs, demonstrating superior efficiency over larger models. Our results show 73.4% accuracy for open-end questions, surpassing existing models and validating its potential for real-world medical applications. Key contributions include a specialized multimodal VQA model, a resource-efficient architecture, and strong performance in answering open-ended clinical questions.
- Abstract(参考訳): VQA(Messical Visual Question Answering)は、医療画像の解釈と臨床質問への回答を可能にすることで、臨床的意思決定を強化する。
しかし,医用画像の複雑化や多彩なモダリティのため,効率的な高性能VQAモデルの開発は困難である。
本稿では,画像特徴抽出のためのBiomedCLIPとテキスト処理のためのLLaMA-3を統合した軽量マルチモーダルVQAモデルを提案する。
医療用VQAタスク用に設計され,OmniMedVQAデータセット上で最先端のパフォーマンスを実現する。
約80億のパラメータを持ち、2つのNVIDIA 40 GB A100 GPUしか必要とせず、より大きなモデルよりも優れた効率を示している。
本結果は,オープンエンドの質問に対して73.4%の精度を示し,既存のモデルを超え,現実の医療応用の可能性を検証するものである。
主な貢献は、専門的なマルチモーダルVQAモデル、リソース効率の高いアーキテクチャ、そしてオープンエンドの臨床的な質問に答える上での強力なパフォーマンスである。
関連論文リスト
- GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis [44.76975131560712]
胸部X線診断(GEMeX)のための大規模・地中・説明可能な医用VQAベンチマークを導入する。
151,025の画像と1,605,575の質問により、GEMeXは現在最大の胸部X線VQAデータセットである。
論文 参考訳(メタデータ) (2024-11-25T07:36:46Z) - Fusion of Domain-Adapted Vision and Language Models for Medical Visual Question Answering [4.283761158899643]
医療領域に適応した大規模ビジョンと言語モデルを統合する医療ビジョン言語モデルを提案する。
提案モデルでは,SLAKE 1.0 の医療用 VQA データセット上での最先端性能を87.5% の精度で達成している。
論文 参考訳(メタデータ) (2024-04-24T20:31:15Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - Free Form Medical Visual Question Answering in Radiology [3.495246564946556]
医療用ビジュアル質問回答の研究は、2018年以来、勢いを増している。
本研究は,放射線画像の効果的表現とマルチモーダル表現の連成学習について考察する。
我々のモデルは、より複雑なアーキテクチャでトップ1の精度79.55%を実現し、現在の最先端モデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-23T20:26:52Z) - MISS: A Generative Pretraining and Finetuning Approach for Med-VQA [16.978523518972533]
本稿では,医療用VQAタスクのためのMultI-task Self-Supervised Learning based framework (MISS)を提案する。
我々は,テキストエンコーダとマルチモーダルエンコーダを統一し,マルチタスク学習を通じて画像テキスト機能を調整する。
提案手法は,より少ないマルチモーダルデータセットで優れた結果を得るとともに,生成VQAモデルの利点を実証する。
論文 参考訳(メタデータ) (2024-01-10T13:56:40Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。