論文の概要: CMI-MTL: Cross-Mamba interaction based multi-task learning for medical visual question answering
- arxiv url: http://arxiv.org/abs/2511.01357v1
- Date: Mon, 03 Nov 2025 09:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.188627
- Title: CMI-MTL: Cross-Mamba interaction based multi-task learning for medical visual question answering
- Title(参考訳): CMI-MTL: クロスマンバインタラクションに基づくマルチタスク学習による医用視覚質問応答
- Authors: Qiangguo Jin, Xianyao Zheng, Hui Cui, Changming Sun, Yuqi Fang, Cong Cong, Ran Su, Leyi Wei, Ping Xuan, Junbo Wang,
- Abstract要約: 医療的視覚的質問応答(Med-VQA)は,臨床的意思決定支援と遠隔医療において重要なマルチモーダルタスクである。
最近の自己注意に基づく手法は、視覚と言語間の相互意味的アライメントを扱うのに苦労している。
画像とテキストからクロスモーダルな特徴表現を学習するクロスマンバインタラクションに基づくマルチタスク学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.115735955158428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical visual question answering (Med-VQA) is a crucial multimodal task in clinical decision support and telemedicine. Recent self-attention based methods struggle to effectively handle cross-modal semantic alignments between vision and language. Moreover, classification-based methods rely on predefined answer sets. Treating this task as a simple classification problem may make it unable to adapt to the diversity of free-form answers and overlook the detailed semantic information of free-form answers. In order to tackle these challenges, we introduce a Cross-Mamba Interaction based Multi-Task Learning (CMI-MTL) framework that learns cross-modal feature representations from images and texts. CMI-MTL comprises three key modules: fine-grained visual-text feature alignment (FVTA), cross-modal interleaved feature representation (CIFR), and free-form answer-enhanced multi-task learning (FFAE). FVTA extracts the most relevant regions in image-text pairs through fine-grained visual-text feature alignment. CIFR captures cross-modal sequential interactions via cross-modal interleaved feature representation. FFAE leverages auxiliary knowledge from open-ended questions through free-form answer-enhanced multi-task learning, improving the model's capability for open-ended Med-VQA. Experimental results show that CMI-MTL outperforms the existing state-of-the-art methods on three Med-VQA datasets: VQA-RAD, SLAKE, and OVQA. Furthermore, we conduct more interpretability experiments to prove the effectiveness. The code is publicly available at https://github.com/BioMedIA-repo/CMI-MTL.
- Abstract(参考訳): 医療的視覚的質問応答(Med-VQA)は,臨床的意思決定支援と遠隔医療において重要なマルチモーダルタスクである。
最近の自己注意に基づく手法は、視覚と言語間の相互意味的アライメントを効果的に扱うのに苦労している。
さらに、分類に基づく手法は事前に定義された解集合に依存する。
このタスクを単純な分類問題として扱うことで、自由形式の回答の多様性に適応できず、自由形式の回答の詳細な意味情報を見落としてしまう可能性がある。
これらの課題に対処するために、画像やテキストからクロスモーダルな特徴表現を学習するクロスマンバインタラクションベースのマルチタスク学習(CMI-MTL)フレームワークを導入する。
CMI-MTLは、細粒度視覚テキスト特徴アライメント(FVTA)、クロスモーダルインターリーブ特徴表現(CIFR)、自由形式の多タスク学習(FFAE)の3つの主要なモジュールから構成される。
FVTAは、微細な視覚的特徴アライメントにより、画像とテキストのペアで最も関連性の高い領域を抽出する。
CIFRは、クロスモーダルなインターリーブされた特徴表現を通じて、クロスモーダルなシーケンシャルな相互作用をキャプチャする。
FFAEは、自由形式の回答強化マルチタスク学習を通じて、オープンエンドの質問からの補助的知識を活用し、オープンエンドのMed-VQAに対するモデルの能力を向上させる。
実験の結果,CMI-MTLは既存の3つのMed-VQAデータセット(VQA-RAD,SLAKE,OVQA)よりも優れていた。
さらに,有効性を証明するために,より解釈可能性実験を行う。
コードはhttps://github.com/BioMedIA-repo/CMI-MTLで公開されている。
関連論文リスト
- True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。
大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文 参考訳(メタデータ) (2025-04-09T23:33:35Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training [11.129868018236445]
VQA(Visual Question Answering)をマルチモーダル・プレトレーニングに利用して,対象とする病態の特徴に着目したフレームワークのガイドを行う。
また,視覚的特徴をテキスト領域に近い準テキスト空間に変換するためのモジュールである準テキスト特徴変換器を用いた新しい事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-30T02:56:54Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - A Dual-Attention Learning Network with Word and Sentence Embedding for
Medical Visual Question Answering [2.0559497209595823]
医学的視覚的質問応答(MVQA)の研究は、コンピュータ支援診断の開発に寄与する。
既存のMVQA質問抽出方式は、主にテキスト中の医療情報を無視した単語情報に焦点を当てている。
本研究では,単語と文の埋め込み(WSDAN)を併用した二重注意学習ネットワークを提案する。
論文 参考訳(メタデータ) (2022-10-01T08:32:40Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。