論文の概要: Med-R2: An Adversarial Benchmark for Evidence-Grounded Reasoning in Medical VLMs
- arxiv url: http://arxiv.org/abs/2605.24492v1
- Date: Sat, 23 May 2026 09:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.128684
- Title: Med-R2: An Adversarial Benchmark for Evidence-Grounded Reasoning in Medical VLMs
- Title(参考訳): Med-R2:医療用VLMにおけるエビデンス周辺推論のための逆ベンチマーク
- Authors: Wen Ma, Fucheng Niu, Zhiting Fan, Zikai Xiao, Jiaxiang Liu, Zuozhu Liu,
- Abstract要約: Med-R2 Benchは、視覚的接地による対向的堅牢性を評価するために、臨床ワークフローと整合した階層的ベンチマークである。
本研究は,4つの臨床段階の視覚的エビデンスに連鎖推論が厳密に根付いているかを評価するために,段階的にQAタスクを設計する。
- 参考スコア(独自算出の注目度): 21.95646908343504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models have demonstrated impressive capabilities in general medical visual question answering, yet due to limited interpretability, it remains unclear whether their predictions reflect evidence-grounded clinical reasoning or reliance on spurious priors. We introduce Med-R2 Bench, a hierarchical benchmark aligned with the clinical workflow to evaluate adversarial robustness with visual grounding. We design stepwise QA tasks to assess whether reasoning chains are strictly grounded in visual evidence across the four clinical stages, and employ adversarial perturbations to test robustness against misleading cues. Med-R2 comprises 42,432 images, 31 task categories, and 110,406 QA pairs. Evaluation across 14 VLMs reveals a sequential performance degradation along the four-stage clinical workflow. Adversarial experiments show that models rely heavily on correct prompts to guess answers. Even when provided with explicit visual cues, the models struggle to accurately align textual descriptions. Finally, we demonstrate stepwise fine-tuning using our hierarchical data significantly improves reasoning robustness, highlighting its potential to drive future improvements in evidence-based medical AI.
- Abstract(参考訳): 視覚言語モデルは、一般的な医学的視覚的質問応答において印象的な能力を示してきたが、解釈可能性に限界があるため、それらの予測が根拠に基づく臨床推論を反映しているか、あるいは急激な先行への依存を反映しているかは定かではない。
Med-R2 Benchは、視覚的接地による対向的堅牢性を評価するために、臨床ワークフローと整合した階層的ベンチマークである。
段階的にQAタスクを設計し、4つの臨床段階にわたる視覚的証拠に推論連鎖が厳密に根付いているかを評価するとともに、逆方向の摂動を用いて、誤解を招く手がかりに対する堅牢性をテストする。
Med-R2は42,432のイメージ、31のタスクカテゴリ、110,406のQAペアで構成されている。
14個のVLMを評価すると、4段階の臨床ワークフローに沿って連続的なパフォーマンス劣化が明らかになる。
敵対的な実験は、モデルは答えを推測する正しいプロンプトに大きく依存していることを示している。
明示的な視覚的手がかりが与えられたとしても、モデルはテキスト記述を正確に調整するのに苦労する。
最後に、階層的なデータを使って段階的に微調整することで、推論の堅牢性を大幅に向上させ、エビデンスベースの医療AIの将来的な改善を促進する可能性を強調します。
関連論文リスト
- MedLVR: Latent Visual Reasoning for Reliable Medical Visual Question Answering [8.481971263315854]
textscMedLVRは、自動テキストデコーディングに明示的な視覚的エビデンス状態を導入する。
潜在的な視覚的推論は、診断に関連のある視覚的証拠を保存するための効果的なメカニズムを提供する。
論文 参考訳(メタデータ) (2026-04-10T16:03:03Z) - M3CoTBench: Benchmark Chain-of-Thought of MLLMs in Medical Image Understanding [66.78251988482222]
CoT(Chain-of-Thought)推論は、ステップバイステップの中間推論を奨励することによって、大規模言語モデルの強化に有効であることが証明されている。
医用画像理解のための現在のベンチマークでは、推論パスを無視しながら最終回答に重点を置いている。
M3CoTBenchは、透明で信頼性が高く、診断的に正確な医療用AIシステムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2026-01-13T17:42:27Z) - S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。
データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。
S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文 参考訳(メタデータ) (2025-10-26T15:57:14Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Benchmarking and Mitigate Sycophancy in Medical Vision-Language Models [21.353225217216252]
視覚言語モデルは、しばしば、証拠に基づく推論よりも、社会的手がかりや認識された権威を記述したユーザーとの整合性に優先順位を付ける、幻想的行動を示す。
本研究は, 新規な臨床評価基準を用いて, 医用視覚質問応答における臨床症状について検討した。
論文 参考訳(メタデータ) (2025-09-26T07:02:22Z) - Knowing or Guessing? Robust Medical Visual Question Answering via Joint Consistency and Contrastive Learning [34.6490677122246]
医用視覚質問応答における不安定性について,現在の医用視覚言語モデル (Med-VLMs) を用いて検討した。
本稿では,知識適応型一貫性学習とバイアス認識型コントラスト学習を統合した一貫性・コントラスト学習(CCL)を提案する。
CCLは3つの人気のあるVQAベンチマークでSOTAのパフォーマンスを達成し、特にRoMedテストセットで解の一貫性を50%向上させる。
論文 参考訳(メタデータ) (2025-08-26T05:21:19Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - DeVisE: Behavioral Testing of Medical Large Language Models [14.832083455439749]
DeVisEは、きめ細かい臨床的理解を求めるための行動テストフレームワークである。
我々はMIMIC-IVからICU排出音符のデータセットを構築した。
汎用型および医療用微調整型にまたがる5種類のLSMについて検討した。
論文 参考訳(メタデータ) (2025-06-18T10:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。