論文の概要: InViC: Intent-aware Visual Cues for Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2603.16372v1
- Date: Tue, 17 Mar 2026 10:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.233513
- Title: InViC: Intent-aware Visual Cues for Medical Visual Question Answering
- Title(参考訳): InViC: 医用ビジュアル質問応答のためのインテント対応ビジュアルキュー
- Authors: Zhisong Wang, Ziyang Chen, Zanting Ye, Hongze Zhu, Yefeng Zheng, Yong Xia,
- Abstract要約: 医学的視覚的質問応答 (Med-VQA) は、医学的イメージに根ざした臨床的に関係のある質問に答えることを目的としている。
本稿では,Intent-aware Visual Cues (InViC) と呼ばれる軽量なプラグインフレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.182862595075825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical visual question answering (Med-VQA) aims to answer clinically relevant questions grounded in medical images. However, existing multimodal large language models (MLLMs) often exhibit shortcut answering, producing plausible responses by exploiting language priors or dataset biases while insufficiently attending to visual evidence. This behavior undermines clinical reliability, especially when subtle imaging findings are decisive. We propose a lightweight plug-in framework, termed Intent-aware Visual Cues (InViC), to explicitly enhance image-based answer generation in medical VQA. InViC introduces a Cue Tokens Extraction (CTE) module that distills dense visual tokens into a compact set of K question-conditioned cue tokens, which serve as structured visual intermediaries injected into the LLM decoder to promote intent-aligned visual evidence. To discourage bypassing of visual information, we further design a two-stage fine-tuning strategy with a cue-bottleneck attention mask. In Stage I, we employ an attention mask to block the LLM's direct view of raw visual features, thereby funneling all visual evidence through the cue pathway. In Stage II, standard causal attention is restored to train the LLM to jointly exploit the visual and cue tokens. We evaluate InViC on three public Med-VQA benchmarks (VQA-RAD, SLAKE, and ImageCLEF VQA-Med 2019) across multiple representative MLLMs. InViC consistently improves over zero-shot inference and standard LoRA fine-tuning, demonstrating that intent-aware visual cues with bottlenecked training is a practical and effective strategy for improving trustworthy Med-VQA.
- Abstract(参考訳): 医学的視覚的質問応答 (Med-VQA) は、医学的イメージに根ざした臨床的に関係のある質問に答えることを目的としている。
しかし、既存のマルチモーダルな大規模言語モデル(MLLM)は、しばしばショートカット応答を示し、言語先行情報やデータセットバイアスを利用して、視覚的証拠に不十分な応答を生成する。
この行動は、特に微妙な画像所見が決定的である場合、臨床的信頼性を損なう。
本稿では,Intent-aware Visual Cues (InViC) と呼ばれる軽量なプラグインフレームワークを提案する。
InViCはCue Tokens extract (CTE)モジュールを導入し、高密度な視覚トークンをK個の質問条件付きキュートークンのコンパクトなセットに蒸留し、LLMデコーダに注入された構造化視覚中間体として機能し、意図に整合した視覚的証拠を促進する。
視覚情報のバイパスを回避するため、キュー・ボトルネック・アテンション・マスクを用いた2段階の微調整戦略をさらに設計する。
ステージIでは、注意マスクを用いて、LCMの生の視覚的特徴の直接的視認を阻止し、キュー経路を通じてすべての視覚的証拠を封じ込めます。
ステージIIでは、標準的な因果注意が復元され、視覚トークンとキュートークンを併用するようにLLMを訓練する。
我々は、複数の代表MLLMに対して3つの公開Med-VQAベンチマーク(VQA-RAD、SLAKE、ImageCLEF VQA-Med 2019)でInViCを評価した。
InViCはゼロショット推論と標準のLoRA微調整を一貫して改善し、ボトルネックトレーニングによる意図認識の視覚的手がかりが、信頼できるMed-VQAを改善するための実用的で効果的な戦略であることを示した。
関連論文リスト
- Enhancing Medical Large Vision-Language Models via Alignment Distillation [30.592211423687246]
我々は,Med-LVLMの領域固有のコントラスト言語-画像事前学習モデルから視覚的アライメントの知識を伝達するためのMEDALIGNを提案する。
MEDALIGNは,医療報告生成と医用視覚質問応答ベンチマークの実験により,パフォーマンスと解釈性の両方を一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-12-21T00:57:13Z) - Med-VCD: Mitigating Hallucination for Medical Large Vision Language Models through Visual Contrastive Decoding [0.8431877864777443]
医用LVLMにおける幻覚を、二次復号の時間的オーバーヘッドを伴わずに緩和する、疎視的復号法であるMed-VCDを導入する。
以上の結果から,Med-VCDは平均13%,幻覚精度は6%向上した。
論文 参考訳(メタデータ) (2025-12-01T17:40:03Z) - Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs [26.144870818163387]
構造因果グラフを用いて幻覚過程をモデル化する枠組みを提案する。
本稿では、復号時のモダリティ寄与不均衡を定量化する新しい計量であるVTACRを紹介する。
トークン・レイヤ・アテンションを動的に調整する微細言語によるアテンション介入機構を設計する。
論文 参考訳(メタデータ) (2025-11-12T06:13:26Z) - Think Twice to See More: Iterative Visual Reasoning in Medical VLMs [21.083636394814217]
私たちは、人間の専門家の反復的推論プロセスをエミュレートするフレームワークViTARを紹介します。
ViTARは、医療画像をインタラクティブなオブジェクトとして扱い、モデルが多段階の視覚的推論を行えるようにする。
論文 参考訳(メタデータ) (2025-10-11T06:39:57Z) - CAI: Caption-Sensitive Attention Intervention for Mitigating Object Hallucination in Large Vision-Language Models [60.0300765815417]
LVLM(Large Vision-Language Models)は、視覚情報から逸脱するコンテンツをしばしば生成し、物体の幻覚を引き起こす。
本稿では,CAI (Caption-sensitive Attention Intervention) を提案する。
論文 参考訳(メタデータ) (2025-06-30T07:52:36Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Guiding Medical Vision-Language Models with Explicit Visual Prompts: Framework Design and Comprehensive Exploration of Prompt Variations [15.052986179046076]
医用エンティティ抽出,視覚的プロンプト生成,およびデータセット適応を統合した,視覚的プロンプトによる微調整のための先駆的フレームワークであるMedVPを紹介する。
我々は、複数の医療用VQAデータセットにおいて、最新の最先端の大規模モデルを上回る結果を得た。
論文 参考訳(メタデータ) (2025-01-04T21:23:36Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。