論文の概要: A Multimodal LLM Approach for Visual Question Answering on Multiparametric 3D Brain MRI
- arxiv url: http://arxiv.org/abs/2509.25889v2
- Date: Wed, 01 Oct 2025 03:37:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.806795
- Title: A Multimodal LLM Approach for Visual Question Answering on Multiparametric 3D Brain MRI
- Title(参考訳): マルチパラメトリック3次元脳MRIを用いた視覚質問応答のためのマルチモーダルLCMアプローチ
- Authors: Arvind Murari Vepa, Yannan Yu, Jingru Gan, Anthony Cuturrufo, Weikai Li, Wei Wang, Fabien Scalzo, Yizhou Sun,
- Abstract要約: mpLLMは、3次元脳MRI上での視覚的質問応答のための、迅速な条件付き階層的混合処理アーキテクチャである。
mpLLMは、複数の相互関連3Dモダリティを融合するために、モダリティレベルおよびトークンレベルのプロジェクションエキスパートをルートする。
mpLLMは、複数のmpMRIデータセットにおいて、強い医用VLMベースラインを平均5.3%上回る。
- 参考スコア(独自算出の注目度): 31.111739327390925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce mpLLM, a prompt-conditioned hierarchical mixture-of-experts (MoE) architecture for visual question answering over multi-parametric 3D brain MRI (mpMRI). mpLLM routes across modality-level and token-level projection experts to fuse multiple interrelated 3D modalities, enabling efficient training without image-report pretraining. To address limited image-text paired supervision, mpLLM integrates a synthetic visual question answering (VQA) protocol that generates medically relevant VQA from segmentation annotations, and we collaborate with medical experts for clinical validation. mpLLM outperforms strong medical VLM baselines by 5.3% on average across multiple mpMRI datasets. Our study features three main contributions: (1) the first clinically validated VQA dataset for 3D brain mpMRI, (2) a novel multimodal LLM that handles multiple interrelated 3D modalities, and (3) strong empirical results that demonstrate the medical utility of our methodology. Ablations highlight the importance of modality-level and token-level experts and prompt-conditioned routing.
- Abstract(参考訳): マルチパラメトリック3次元脳MRI(mpMRI)を用いた視覚的質問応答のための,プロンプト条件付き階層型混合実験(MoE)アーキテクチャであるmpLLMを紹介する。
mpLLMは、モダリティレベルとトークンレベルのプロジェクションの専門家をまたいで、複数の相互関連3Dモダリティを融合させ、イメージレポート事前トレーニングなしで効率的なトレーニングを可能にする。
限定的な画像とテキストのペアによる監督に対処するため、mpLLMは、セグメンテーションアノテーションから医療関連VQAを生成する合成視覚質問応答(VQA)プロトコルを統合し、臨床検証のために医療専門家と協力する。
mpLLMは、複数のmpMRIデータセットにおいて、強い医用VLMベースラインを平均5.3%上回る。
本研究は, 1 つの主要な貢献として, 1 つの臨床的に検証された 3 次元脳 mpMRI のための VQA データセット, 2 つの相互関連 3 次元モダリティを扱う新しいマルチモーダル LLM , 3 つの方法論の医療的有用性を示す強力な実験結果がある。
アブレーションは、モダリティレベルとトークンレベルの専門家とプロンプト条件のルーティングの重要性を強調している。
関連論文リスト
- M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision [24.846428105192405]
我々は、モダリティ固有のカスタマイズなしで、統一されたビジュアルエンコーダであるM3Retを訓練する。
生成的(MAE)およびコントラスト的(SimDINO)自己教師型学習(SSL)パラダイムを用いて、転送可能な表現をうまく学習する。
提案手法は,DINOv3 やテキスト教師付き BMC-CLIP などの強力なベースラインを超越して,すべてのモダリティを横断するゼロショット画像画像検索において,新たな最先端技術を実現する。
論文 参考訳(メタデータ) (2025-09-01T10:59:39Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - MEDMKG: Benchmarking Medical Knowledge Exploitation with Multimodal Knowledge Graph [28.79000907242469]
医用マルチモーダル知識グラフであるMEDMKGを提案する。
我々は,3つのタスクにまたがるMEDMKGを2つの実験的な設定で評価し,24のベースライン法と4つの最先端のビジョン言語バックボーンを6つのデータセットでベンチマークした。
その結果,MEDMKGは下流医療タスクの性能向上だけでなく,医療人工知能におけるマルチモーダル知識統合のための適応的かつ堅牢な戦略開発のための強力な基盤を提供することがわかった。
論文 参考訳(メタデータ) (2025-05-22T18:41:46Z) - Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。
大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文 参考訳(メタデータ) (2025-04-09T23:33:35Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。