論文の概要: KG-CMI: Knowledge graph enhanced cross-Mamba interaction for medical visual question answering
- arxiv url: http://arxiv.org/abs/2604.00601v1
- Date: Wed, 01 Apr 2026 08:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.897254
- Title: KG-CMI: Knowledge graph enhanced cross-Mamba interaction for medical visual question answering
- Title(参考訳): KG-CMI:医学的視覚的質問応答のための知識グラフによるマンバ間相互作用の強化
- Authors: Xianyao Zheng, Hong Yu, Hui Cui, Changming Sun, Xiangyu Li, Ran Su, Leyi Wei, Jia Zhou, Junbo Wang, Qiangguo Jin,
- Abstract要約: 医療的視覚的質問応答(Med-VQA)は,臨床的意思決定支援と遠隔医療において重要なマルチモーダルタスクである。
最近の手法では、ドメイン固有の医療知識を完全に活用できない。
Med-VQAを単純な分類問題として扱うことは、自由形式の答えの多様性に適応する能力を制限する。
- 参考スコア(独自算出の注目度): 17.711762075385156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical visual question answering (Med-VQA) is a crucial multimodal task in clinical decision support and telemedicine. Recent methods fail to fully leverage domain-specific medical knowledge, making it difficult to accurately associate lesion features in medical images with key diagnostic criteria. Additionally, classification-based approaches typically rely on predefined answer sets. Treating Med-VQA as a simple classification problem limits its ability to adapt to the diversity of free-form answers and may overlook detailed semantic information in those answers. To address these challenges, we propose a knowledge graph enhanced cross-Mamba interaction (KG-CMI) framework, which consists of a fine-grained cross-modal feature alignment (FCFA) module, a knowledge graph embedding (KGE) module, a cross-modal interaction representation (CMIR) module, and a free-form answer enhanced multi-task learning (FAMT) module. The KG-CMI learns cross-modal feature representations for images and texts by effectively integrating professional medical knowledge through a graph, establishing associations between lesion features and disease knowledge. Moreover, FAMT leverages auxiliary knowledge from open-ended questions, improving the model's capability for open-ended Med-VQA. Experimental results demonstrate that KG-CMI outperforms existing state-of-the-art methods on three Med-VQA datasets, i.e., VQA-RAD, SLAKE, and OVQA. Additionally, we conduct interpretability experiments to further validate the framework's effectiveness.
- Abstract(参考訳): 医療的視覚的質問応答(Med-VQA)は,臨床的意思決定支援と遠隔医療において重要なマルチモーダルタスクである。
近年の手法では、領域固有の医療知識を十分に活用できないため、医学画像の病変の特徴を重要な診断基準と正確に関連付けることは困難である。
さらに、分類に基づくアプローチは、通常、事前に定義された回答セットに依存する。
Med-VQAを単純な分類問題として扱うことは、自由形式の回答の多様性に適応する能力を制限し、それらの答えの詳細な意味情報を見逃す可能性がある。
これらの課題に対処するため,細粒度のクロスモーダル特徴アライメント(FCFA)モジュール,知識グラフ埋め込み(KGE)モジュール,相互モーダル相互作用表現(CMIR)モジュール,自由形式のマルチタスク学習(FAMT)モジュールからなる知識グラフ拡張クロスマンバインタラクション(KG-CMI)フレームワークを提案する。
KG-CMIは、画像とテキストのクロスモーダルな特徴表現を学習し、グラフを通じて専門的な医療知識を効果的に統合し、病変の特徴と疾患知識の関連性を確立する。
さらに、FAMTは、オープンエンド質問からの補助的知識を活用し、オープンエンドのMed-VQAに対するモデルの能力を向上させる。
実験の結果,KG-CMIは3つのMed-VQAデータセット,すなわちVQA-RAD,SLAKE,OVQAにおいて,既存の最先端手法よりも優れていた。
さらに,フレームワークの有効性をさらに検証するために,解釈可能性実験を実施している。
関連論文リスト
- CMI-MTL: Cross-Mamba interaction based multi-task learning for medical visual question answering [16.115735955158428]
医療的視覚的質問応答(Med-VQA)は,臨床的意思決定支援と遠隔医療において重要なマルチモーダルタスクである。
最近の自己注意に基づく手法は、視覚と言語間の相互意味的アライメントを扱うのに苦労している。
画像とテキストからクロスモーダルな特徴表現を学習するクロスマンバインタラクションに基づくマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-03T09:05:16Z) - Alignment, Mining and Fusion: Representation Alignment with Hard Negative Mining and Selective Knowledge Fusion for Medical Visual Question Answering [26.129050821950994]
医学的視覚的質問回答(Med-VQA)は、医学的イメージとテキスト的質問の両方を深く理解する必要がある課題である。
私たちのフレームワークは、RAD-VQA、SLAKE、PathVQA、VQA 2019といった、広く使用されているMed-VQAデータセットの最先端よりも優れています。
論文 参考訳(メタデータ) (2025-10-09T20:14:49Z) - MedVQA-TREE: A Multimodal Reasoning and Retrieval Framework for Sarcopenia Prediction [1.7775777785480917]
MedVQA-TREEは階層的な画像解釈モジュール、ゲート機能レベルの融合機構、新しいマルチホップ・マルチクエリ検索戦略を統合したフレームワークである。
ゲート融合機構は、視覚的特徴をテキストクエリと選択的に統合し、臨床知識は、PubMedにアクセスするUMLS誘導パイプラインとサルコピア固有の外部知識ベースを介して検索する。
診断精度は99%まで向上し、従来の最先端の手法を10%以上上回った。
論文 参考訳(メタデータ) (2025-08-26T13:31:01Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - ClinKD: Cross-Modal Clinical Knowledge Distiller For Multi-Task Medical Images [4.353855760968461]
画像テキストアライメントを強化し、より効果的な医療知識変換機構を確立するために設計されたクロスモーダル臨床知識障害(ClinKD)。
ClinKDは、Med-VQAタスクでは難しいいくつかのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-09T15:08:10Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。