論文の概要: Enhancing Medical Visual Grounding via Knowledge-guided Spatial Prompts
- arxiv url: http://arxiv.org/abs/2604.01915v1
- Date: Thu, 02 Apr 2026 11:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.709329
- Title: Enhancing Medical Visual Grounding via Knowledge-guided Spatial Prompts
- Title(参考訳): 知識誘導型空間プロンプトによる医用ビジュアルグラウンドの強化
- Authors: Yifan Gao, Tao Zhou, Yi Zhou, Ke Zou, Yizhe Zhang, Huazhu Fu,
- Abstract要約: 医用ビジュアルグラウンドリング(MVG)は、フリーテキストラジオグラフィーレポートから関連するフレーズを識別し、医療画像中の対応する領域をローカライズすることを目的としている。
我々は,フレーズ関連医療知識をコンパクトな埋め込みにエンコードする知識強化促進戦略であるKnowMVGを提案する。
この設計は、余分なテキスト推論オーバーヘッドを導入することなく、高レベルな意味理解ときめ細かい視覚知覚を橋渡しする。
- 参考スコア(独自算出の注目度): 52.256130375429414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Visual Grounding (MVG) aims to identify diagnostically relevant phrases from free-text radiology reports and localize their corresponding regions in medical images, providing interpretable visual evidence to support clinical decision-making. Although recent Vision-Language Models (VLMs) exhibit promising multimodal reasoning ability, their grounding remains insufficient spatial precision, largely due to a lack of explicit localization priors when relying solely on latent embeddings. In this work, we analyze this limitation from an attention perspective and propose KnowMVG, a Knowledge-prior and global-local attention enhancement framework for MVG in VLMs that explicitly strengthens spatial awareness during decoding. Specifically, we present a knowledge-enhanced prompting strategy that encodes phrase related medical knowledge into compact embeddings, together with a global-local attention that jointly leverages coarse global information and refined local cues to guide precise region localization. localization. This design bridges high-level semantic understanding and fine-grained visual perception without introducing extra textual reasoning overhead. Extensive experiments on four MVG benchmarks demonstrate that our KnowMVG consistently outperforms existing approaches, achieving gains of 3.0% in AP50 and 2.6% in mIoU over prior state-of-the-art methods. Qualitative and ablation studies further validate the effectiveness of each component.
- Abstract(参考訳): 医用ビジュアルグラウンドリング (MVG) は、診断に関連のあるフレーズをフリーテキストのラジオグラフィーレポートから識別し、医療画像中の対応する領域をローカライズすることを目的としており、臨床的意思決定を支援するための解釈可能な視覚的証拠を提供する。
近年のVision-Language Models (VLM) は、有望なマルチモーダル推論能力を示しているが、その基盤は空間的精度が不十分なままであり、主に潜伏埋め込みのみに依存する場合の明示的な位置決めの欠如によるものである。
本研究では,この制限を注意点から分析し,復号時の空間認識を明示的に強化する,VLMにおけるMVGのための知識優先的かつグローバルな注目促進フレームワークであるKnowMVGを提案する。
具体的には、フレーズ関連医療知識をコンパクトな埋め込みにエンコードする知識強化促進戦略と、粗大なグローバル情報と洗練された局所的手がかりを併用して、精密な地域ローカライゼーションを導出するグローバルな注意を提示する。
ローカライゼーション
この設計は、余分なテキスト推論オーバーヘッドを導入することなく、高レベルな意味理解ときめ細かい視覚知覚を橋渡しする。
4つのMVGベンチマークの大規模な実験により、我々のノウMVGは既存のアプローチを一貫して上回り、AP50では3.0%、mIoUでは2.6%のアップを達成した。
定性的およびアブレーション研究は、各成分の有効性をさらに検証する。
関連論文リスト
- Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge [66.67024684187915]
LVLM(Large Vision Language Models)は、眼科における自動診断の可能性を秘めている。
彼らの臨床展開は、ドメイン固有の知識の欠如によって著しく妨げられている。
EyExInは、Deep Expert Injectionメカニズムを通じて専門知識で網膜VLMを固定するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2026-03-07T09:43:49Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - RAU: Reference-based Anatomical Understanding with Vision Language Models [26.06602931463068]
視覚言語モデル(VLM)を用いた参照型解剖学的理解のためのフレームワークであるRAUを紹介する。
まず,VLMが参照画像と対象画像の相対的空間的推論により解剖学的領域の同定を学習することを示す。
次に, VLM由来の空間的手がかりをSAM2の細粒度セグメンテーション能力とシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2025-09-26T14:32:03Z) - Localizing Before Answering: A Hallucination Evaluation Benchmark for Grounded Medical Multimodal LLMs [18.43222146132849]
LMMのローカライズ能力とロバスト性を評価するためのベンチマークであるHEAL-MedVQAを紹介する。
そこで本研究では,LMMが関心のある対象領域をローカライズするためのLobA(Lobize-before-Answer)フレームワークを提案する。
実験の結果, HEAL-MedVQA ベンチマークでは, バイオメディカル LMM よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-04-30T07:57:51Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。