論文の概要: Alignment, Mining and Fusion: Representation Alignment with Hard Negative Mining and Selective Knowledge Fusion for Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2510.08791v1
- Date: Thu, 09 Oct 2025 20:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.700549
- Title: Alignment, Mining and Fusion: Representation Alignment with Hard Negative Mining and Selective Knowledge Fusion for Medical Visual Question Answering
- Title(参考訳): アライメント, マイニング, フュージョン: 医用視覚質問応答のためのハード負のマイニングと選択的知識フュージョンを用いた表現アライメント
- Authors: Yuanhao Zou, Zhaozheng Yin,
- Abstract要約: 医学的視覚的質問回答(Med-VQA)は、医学的イメージとテキスト的質問の両方を深く理解する必要がある課題である。
私たちのフレームワークは、RAD-VQA、SLAKE、PathVQA、VQA 2019といった、広く使用されているMed-VQAデータセットの最先端よりも優れています。
- 参考スコア(独自算出の注目度): 26.129050821950994
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Medical Visual Question Answering (Med-VQA) is a challenging task that requires a deep understanding of both medical images and textual questions. Although recent works leveraging Medical Vision-Language Pre-training (Med-VLP) have shown strong performance on the Med-VQA task, there is still no unified solution for modality alignment, and the issue of hard negatives remains under-explored. Additionally, commonly used knowledge fusion techniques for Med-VQA may introduce irrelevant information. In this work, we propose a framework to address these challenges through three key contributions: (1) a unified solution for heterogeneous modality alignments across multiple levels, modalities, views, and stages, leveraging methods like contrastive learning and optimal transport theory; (2) a hard negative mining method that employs soft labels for multi-modality alignments and enforces the hard negative pair discrimination; and (3) a Gated Cross-Attention Module for Med-VQA that integrates the answer vocabulary as prior knowledge and selects relevant information from it. Our framework outperforms the previous state-of-the-art on widely used Med-VQA datasets like RAD-VQA, SLAKE, PathVQA and VQA-2019.
- Abstract(参考訳): 医学的視覚的質問回答(Med-VQA)は、医学的イメージとテキスト的質問の両方を深く理解する必要がある課題である。
近年、Med-VQAタスクにおいて、Med-VLP(Med-Language Pre-Training)を活用する研究が活発に行われているが、モダリティアライメントの統一的な解決法はいまだに存在せず、ハードネガティブの問題はまだ未解決のままである。
さらに、Med-VQAの一般的な知識融合技術は、無関係な情報を導入する可能性がある。
本研究では,(1)マルチレベル,モダリティ,ビュー,ステージにまたがる不均一なモダリティアライメントのための統合ソリューション,(2)マルチモーダルアライメントにソフトラベルを併用し,ハードネガティブなペア識別を行うハードネガティブマイニング手法,(3)Med-VQAのGated Cross-Attention Moduleを事前の知識として統合し,関連する情報を選択する,3つの主要なコントリビューションを通じて,これらの課題に対処するためのフレームワークを提案する。
我々のフレームワークは、RAD-VQA、SLAKE、PathVQA、VQA-2019といった広く使われているMed-VQAデータセットの最先端よりも優れています。
関連論文リスト
- Knowing or Guessing? Robust Medical Visual Question Answering via Joint Consistency and Contrastive Learning [34.6490677122246]
医用視覚質問応答における不安定性について,現在の医用視覚言語モデル (Med-VLMs) を用いて検討した。
本稿では,知識適応型一貫性学習とバイアス認識型コントラスト学習を統合した一貫性・コントラスト学習(CCL)を提案する。
CCLは3つの人気のあるVQAベンチマークでSOTAのパフォーマンスを達成し、特にRoMedテストセットで解の一貫性を50%向上させる。
論文 参考訳(メタデータ) (2025-08-26T05:21:19Z) - GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。
この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。
本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion [4.821565717653691]
Med-VQA (Medicical Visual Question Answering) は、医療画像を用いて臨床的な疑問に答え、診断を支援する。
本研究では, 詳細な医療質問に対する階層型プロンプティングと階層型アンサーデコーダの2つのモジュールを含むHiCA-VQA法を提案する。
Rad-Restructベンチマークの実験により、HiCA-VQAフレームワークは階層的なきめ細かい質問に答える上で、既存の最先端メソッドよりも優れていることが示されている。
論文 参考訳(メタデータ) (2025-04-04T03:03:12Z) - ClinKD: Cross-Modal Clinical Knowledge Distiller For Multi-Task Medical Images [4.353855760968461]
画像テキストアライメントを強化し、より効果的な医療知識変換機構を確立するために設計されたクロスモーダル臨床知識障害(ClinKD)。
ClinKDは、Med-VQAタスクでは難しいいくつかのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-09T15:08:10Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex
Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。
これらの質問は、現在のQAシステムにとって最も難しいものです。
知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。
市販の事前訓練モデルを完全に活用しようと努力しています。
論文 参考訳(メタデータ) (2020-08-06T02:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。