論文の概要: Med-GRIM: Enhanced Zero-Shot Medical VQA using prompt-embedded Multimodal Graph RAG
- arxiv url: http://arxiv.org/abs/2508.06496v1
- Date: Sun, 20 Jul 2025 06:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.132969
- Title: Med-GRIM: Enhanced Zero-Shot Medical VQA using prompt-embedded Multimodal Graph RAG
- Title(参考訳): Med-GRIM: Multimodal Graph RAG を用いたゼロショット医療用VQAの増強
- Authors: Rakesh Raj Madavan, Akshat Kaimal, Hashim Faisal, Chandrakala S,
- Abstract要約: A representation model, BIND: BLIVA Integrated with Dense
Denseは、密集したクエリトーケンベースのエンコーディングを通じて、ジョイント埋め込み空間を精製することで、以前のマルチモーダルな作業を拡張する。
この改良されたエンコーダは医療用VQAタスク用に設計されたモデルであるMed-GRIMを利用している。
VQAシステム内の各エージェントに異なる役割を割り当てることで、Med-GRIMは計算コストのごく一部で大きな言語モデルの性能を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An ensemble of trained multimodal encoders and vision-language models (VLMs) has become a standard approach for visual question answering (VQA) tasks. However, such models often fail to produce responses with the detailed precision necessary for complex, domain-specific applications such as medical VQA. Our representation model, BIND: BLIVA Integrated with Dense Encoding, extends prior multimodal work by refining the joint embedding space through dense, query-token-based encodings inspired by contrastive pretraining techniques. This refined encoder powers Med-GRIM, a model designed for medical VQA tasks that leverages graph-based retrieval and prompt engineering to integrate domain-specific knowledge. Rather than relying on compute-heavy fine-tuning of vision and language models on specific datasets, Med-GRIM applies a low-compute, modular workflow with small language models (SLMs) for efficiency. Med-GRIM employs prompt-based retrieval to dynamically inject relevant knowledge, ensuring both accuracy and robustness in its responses. By assigning distinct roles to each agent within the VQA system, Med-GRIM achieves large language model performance at a fraction of the computational cost. Additionally, to support scalable research in zero-shot multimodal medical applications, we introduce DermaGraph, a novel Graph-RAG dataset comprising diverse dermatological conditions. This dataset facilitates both multimodal and unimodal querying. The code and dataset are available at: https://github.com/Rakesh-123-cryp/Med-GRIM.git
- Abstract(参考訳): 訓練されたマルチモーダルエンコーダと視覚言語モデル(VLM)のアンサンブルは、視覚的質問応答(VQA)タスクの標準的アプローチとなっている。
しかしながら、そのようなモデルは、医療用VQAのような複雑なドメイン固有のアプリケーションに必要な詳細な精度で応答を生成できないことが多い。
我々の表現モデル BIND: BLIVA Integrated with Dense Encoding は、コントラスト的な事前学習技術にインスパイアされた、密集したクエリトケンに基づくエンコーディングを通して、結合埋め込み空間を精製することにより、先行マルチモーダルな作業を拡張する。
この改良されたエンコーダは、グラフベースの検索とドメイン固有の知識の統合を促進するために、医療用VQAタスク用に設計されたモデルであるMed-GRIMを利用する。
Med-GRIMは、特定のデータセットに対するビジョンと言語モデルの計算量の多い微調整に頼るのではなく、小さな言語モデル(SLM)による低計算でモジュール化されたワークフローを効率よく適用している。
Med-GRIMは、プロンプトベースの検索を使用して、関連する知識を動的に注入し、応答の正確性と堅牢性を保証する。
VQAシステム内の各エージェントに異なる役割を割り当てることで、Med-GRIMは計算コストのごく一部で大きな言語モデルの性能を達成する。
さらに、ゼロショットマルチモーダル医療アプリケーションにおけるスケーラブルな研究を支援するために、さまざまな皮膚疾患を含む新しいグラフ-RAGデータセットであるDermaGraphを紹介した。
このデータセットはマルチモーダルクエリとユニモーダルクエリの両方を容易にする。
コードとデータセットは、https://github.com/Rakesh-123-cryp/Med-GRIM.gitで入手できる。
関連論文リスト
- MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。
65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。
画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文 参考訳(メタデータ) (2024-08-06T02:09:35Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - MISS: A Generative Pretraining and Finetuning Approach for Med-VQA [16.978523518972533]
本稿では,医療用VQAタスクのためのMultI-task Self-Supervised Learning based framework (MISS)を提案する。
我々は,テキストエンコーダとマルチモーダルエンコーダを統一し,マルチタスク学習を通じて画像テキスト機能を調整する。
提案手法は,より少ないマルチモーダルデータセットで優れた結果を得るとともに,生成VQAモデルの利点を実証する。
論文 参考訳(メタデータ) (2024-01-10T13:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。