論文の概要: MedLVR: Latent Visual Reasoning for Reliable Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2604.09757v1
- Date: Fri, 10 Apr 2026 16:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.660184
- Title: MedLVR: Latent Visual Reasoning for Reliable Medical Visual Question Answering
- Title(参考訳): MedLVR: 信頼性の高い医用ビジュアル質問応答のための潜伏型ビジュアル推論
- Authors: Suyang Xi, Songtao Hu, Yuxiang Lai, Wangyun Dan, Yaqi Liu, Shansong Wang, Xiaofeng Yang,
- Abstract要約: textscMedLVRは、自動テキストデコーディングに明示的な視覚的エビデンス状態を導入する。
潜在的な視覚的推論は、診断に関連のある視覚的証拠を保存するための効果的なメカニズムを提供する。
- 参考スコア(独自算出の注目度): 8.481971263315854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical vision--language models (VLMs) have shown strong potential for medical visual question answering (VQA), yet their reasoning remains largely text-centric: images are encoded once as static context, and subsequent inference is dominated by language. This paradigm is fundamentally limited in clinical scenarios, where accurate answers often depend on subtle, localized visual evidence that cannot be reliably preserved in static embeddings. We propose \textsc{MedLVR}, a latent visual reasoning framework that introduces an explicit visual evidence state into autoregressive decoding. Instead of relying solely on text-based intermediate reasoning, \textsc{MedLVR} interleaves a short latent reasoning segment within the decoder by reusing hidden states as continuous latent steps, enabling iterative preservation and refinement of query-relevant visual evidence before answer generation. To support effective visual supervision, we adopt a two-stage training strategy: region of interest (ROI)-supervised fine-tuning aligns latent states with clinically relevant image evidence, and Visual-Latent Policy Optimization (VLPO) further optimizes latent reasoning and answer generation under outcome-level rewards. Experiments on OmniMedVQA and five external medical VQA benchmarks show that \textsc{MedLVR} consistently outperforms recent reasoning baselines and improves the average score over the Qwen2.5-VL-7B backbone from 48.3\% to 53.4\%. These results show that latent visual reasoning provides an effective mechanism for preserving diagnostically relevant visual evidence and improving the reliability of medical VQA.
- Abstract(参考訳): 医用視覚言語モデル(VLM)は、医用視覚質問応答(VQA)の可能性を強く示しているが、その推論は主にテキスト中心であり、画像は静的な文脈としてエンコードされ、その後の推論は言語によって支配される。
このパラダイムは基本的に臨床シナリオにおいて限られており、正確な答えは静的な埋め込みでは確実に保存できない微妙な局所的な視覚的証拠に依存することが多い。
自動回帰復号に明示的な視覚的エビデンス状態を導入する潜在視覚推論フレームワークである「textsc{MedLVR}」を提案する。
テキストベースの中間推論のみに頼る代わりに、 \textsc{MedLVR} は、シークレットステートを連続的な潜伏ステップとして再利用することにより、デコーダ内の短い潜伏推論セグメントをインターリーブし、応答生成の前にクエリ関連視覚的証拠の反復的保存と改善を可能にする。
有効な視覚的監督を支援するために、我々は2段階の訓練戦略を採用する: 関心領域(ROI)を監督する微調整は、潜伏状態と臨床的に関連のある画像証拠とを関連づけ、視覚レイテンシポリシー最適化(VLPO)は、結果レベルの報酬の下での潜伏推論と回答生成をさらに最適化する。
OmniMedVQAと5つの外部医療用VQAベンチマークの実験によると、 \textsc{MedLVR} は最近の推論ベースラインを一貫して上回り、Qwen2.5-VL-7Bのバックボーンの平均スコアを48.3\%から53.4\%に改善している。
これらの結果から,潜時視覚推論は診断に関連のある視覚的証拠を保存し,医療用VQAの信頼性を向上させるための有効なメカニズムであることが示された。
関連論文リスト
- Med-VCD: Mitigating Hallucination for Medical Large Vision Language Models through Visual Contrastive Decoding [0.8431877864777443]
医用LVLMにおける幻覚を、二次復号の時間的オーバーヘッドを伴わずに緩和する、疎視的復号法であるMed-VCDを導入する。
以上の結果から,Med-VCDは平均13%,幻覚精度は6%向上した。
論文 参考訳(メタデータ) (2025-12-01T17:40:03Z) - S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。
データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。
S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文 参考訳(メタデータ) (2025-10-26T15:57:14Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Think Twice to See More: Iterative Visual Reasoning in Medical VLMs [21.083636394814217]
私たちは、人間の専門家の反復的推論プロセスをエミュレートするフレームワークViTARを紹介します。
ViTARは、医療画像をインタラクティブなオブジェクトとして扱い、モデルが多段階の視覚的推論を行えるようにする。
論文 参考訳(メタデータ) (2025-10-11T06:39:57Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - Knowing or Guessing? Robust Medical Visual Question Answering via Joint Consistency and Contrastive Learning [34.6490677122246]
医用視覚質問応答における不安定性について,現在の医用視覚言語モデル (Med-VLMs) を用いて検討した。
本稿では,知識適応型一貫性学習とバイアス認識型コントラスト学習を統合した一貫性・コントラスト学習(CCL)を提案する。
CCLは3つの人気のあるVQAベンチマークでSOTAのパフォーマンスを達成し、特にRoMedテストセットで解の一貫性を50%向上させる。
論文 参考訳(メタデータ) (2025-08-26T05:21:19Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [48.45209969191245]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文 参考訳(メタデータ) (2025-04-15T16:32:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。