Fugu-MT 論文翻訳(概要): Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

論文の概要: Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

arxiv url: http://arxiv.org/abs/2603.03437v1
Date: Tue, 03 Mar 2026 19:00:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.055469
Title: Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning
Title（参考訳）: マルチモーダル医療推論における視覚的グラウンドの評価
Authors: Anas Zafar, Leema Krishna Murali, Ashish Vashist,
Abstract要約: 最近の研究は、検証可能な報酬を伴うテキストのみの強化学習が、マルチモーダル医療用VQAベンチマークで画像テキストRLVRにマッチまたは上回っていることを示している。実画像, 空白画像, シャッフル画像を用いた反事実評価フレームワークを提案する。本稿では,視覚信頼スコア(VRS),画像感度(IS)を測定し,HVRR(Halucinated Visual Reasoning Rate)を導入し,画像不変解を生成するにもかかわらず,モデルが視覚的クレームを生成するケースを検出する。
参考スコア（独自算出の注目度）: 2.014089835498735
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work shows that text-only reinforcement learning with verifiable rewards (RLVR) can match or outperform image-text RLVR on multimodal medical VQA benchmarks, suggesting current evaluation protocols may fail to measure causal visual dependence. We introduce a counterfactual evaluation framework using real, blank, and shuffled images across four medical VQA benchmarks: PathVQA, PMC-VQA, SLAKE, and VQA-RAD. Beyond accuracy, we measure Visual Reliance Score (VRS), Image Sensitivity (IS), and introduce Hallucinated Visual Reasoning Rate (HVRR) to detect cases where models generate visual claims despite producing image-invariant answers. Our findings reveal that RLVR improves accuracy while degrading visual grounding: text-only RLVR achieves negative VRS on PathVQA (-0.09), performing better with mismatched images, while image-text RLVR reduces image sensitivity to 39.8% overall despite improving accuracy. On VQA-RAD, both variants achieve 63% accuracy through different mechanisms: text-only RLVR retains 81% performance with blank images, while image-text RLVR shows only 29% image sensitivity. Models generate visual claims in 68-74% of responses, yet 38-43% are ungrounded (HVRR). These findings demonstrate that accuracy-only rewards enable shortcut exploitation, and progress requires grounding-aware evaluation protocols and training objectives that explicitly enforce visual dependence.
Abstract（参考訳）: 近年の研究では、検証可能な報酬(RLVR)を用いたテキストのみの強化学習が、マルチモーダル医療用VQAベンチマークで画像テキストRLVRと一致または性能を向上できることが示されており、現在の評価プロトコルが因果的視覚依存性を測ることに失敗する可能性があることを示唆している。本稿では,PathVQA,PMC-VQA,SLAKE,VQA-RADの4つの医用VQAベンチマークにおいて,実画像,空白画像,シャッフル画像を用いた対物評価フレームワークを提案する。精度の他に、視覚信頼スコア(VRS)、画像感度(IS)を測定し、HVRR(Halucinated Visual Reasoning Rate)を導入し、画像不変解を生成するにもかかわらずモデルが視覚的クレームを生成するケースを検出する。テキストのみのRLVRは、PathVQA(-0.09)上の負のVRSを達成し、ミスマッチした画像では良くなり、画像テキストのRLVRは、画像の感度を全体の39.8%まで下げる。テキストのみのRLVRは空白画像で81%のパフォーマンスを維持し、画像テキストのRLVRは29%のイメージ感度しか示さない。モデルは68-74%のレスポンスで視覚的クレームを生成するが、38-43%はアングラウンド(HVRR)である。これらの結果から,精度のみの報酬は短期的活用を可能にすることが示され,進歩には視覚的依存を明示的に強制する接地型評価プロトコルと訓練目標が必要である。

関連論文リスト

Robust Pre-Training of Medical Vision-and-Language Models with Domain-Invariant Multi-Modal Masked Reconstruction [0.0]
マスク付き視覚言語学習に目標を明示的に組み込んだ自己教師型事前学習フレームワークであるRobust Multi-Modal Masked Reconstruction (Robust-MMR)を提案する。 VQA-RAD, クロスドメイン画像テキスト分類 (MELINDA), 堅牢画像キャプチャ検索 (ROCO) などである。以上の結果から,事前トレーニング中にロバスト性を明確にモデル化することで,実世界展開における医療ビジョン言語表現の信頼性が向上することが示された。
論文参考訳（メタデータ） (2026-02-06T01:20:56Z)
Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-13T09:28:22Z)
GroundSight: Augmenting Vision-Language Models with Grounding Information and De-hallucination [2.1517306866297674]
検索型拡張生成(RAG)を用いた視覚質問応答(VQA)の改善手法を提案する。画像全体に基づいて情報を取得するのではなく、我々のアプローチは問題に最も関連するオブジェクトのまわりにバウンディングボックスを生成する。これにより背景雑音が低減され、視覚的およびテキスト的手がかりの整合性が向上し、幻覚の緩和に役立つ。
論文参考訳（メタデータ） (2025-09-30T02:09:07Z)
Bridging the Gap Between Ideal and Real-world Evaluation: Benchmarking AI-Generated Image Detection in Challenging Scenarios [54.07895223545793]
本稿では,実世界ロバストネスデータセット(RRDataset)を導入し,3次元にわたる検出モデルの包括的評価を行う。 RRDatasetには7つの主要なシナリオの高品質なイメージが含まれている。我々はRRDataset上で17の検出器と10の視覚言語モデル(VLM)をベンチマークし、大規模な人間実験を行った。
論文参考訳（メタデータ） (2025-09-11T06:15:52Z)
RAVID: Retrieval-Augmented Visual Detection: A Knowledge-Driven Approach for AI-Generated Image Identification [14.448350657613368]
RAVIDは、視覚検索強化生成(RAG)を活用するAI生成画像検出のための最初のフレームワークである提案手法では,表現学習を改善するためにカテゴリ関連プロンプトを付加した細調整のCLIP画像エンコーダであるRAVID CLIPを利用する。 RAVIDの平均精度は80.27%で、最先端のC2P-CLIPでは63.44%である。
論文参考訳（メタデータ） (2025-08-05T23:10:56Z)
COREVQA: A Crowd Observation and Reasoning Entailment Visual Question Answering Benchmark [3.5018278981067685]
COREVQA (Crowd Observations and Reasoning Entailment) は5608の画像と合成生成された真/偽のステートメントペアのベンチマークである。以上の結果から,トップパフォーマンスのVLMでも80%以下で精度が向上し,他のモデルも大幅に悪化した。
論文参考訳（メタデータ） (2025-07-17T04:47:47Z)
RAID: A Dataset for Testing the Adversarial Robustness of AI-Generated Image Detectors [57.81012948133832]
本稿では,72kの多種多様かつ高い変換可能な対向例からなるRAID(Robust Evaluation of AI- generated Image Detectors)を提案する。提案手法は,未知の検出器に高い成功率で転送する逆画像を生成する。以上の結果から,現在最先端のAI生成画像検出器は,敵の例によって容易に認識できることが示唆された。
論文参考訳（メタデータ） (2025-06-04T14:16:00Z)
Reinforcement Learning for Reasoning in Large Language Models with One Training Example [117.86853102104256]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。 1ショットRLVRにおける興味深い現象として、クロスカテゴリの一般化、自己回帰の頻度の増加、テスト性能の向上の持続などを挙げる。
論文参考訳（メタデータ） (2025-04-29T09:24:30Z)
Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文参考訳（メタデータ） (2023-10-09T16:57:57Z)
Perceptual Quality Assessment of Omnidirectional Images [81.76416696753947]
16のソース画像と320の歪み画像を含む全方位IQA (OIQA) データベースを最初に構築する。そして、VR環境におけるOIQAデータベース上で主観的品質評価研究を行う。原画像と歪んだ全方位画像、主観的品質評価、および頭部と眼の動きデータを合わせてOIQAデータベースを構成する。
論文参考訳（メタデータ） (2022-07-06T13:40:38Z)
Volumetric Attention for 3D Medical Image Segmentation and Detection [53.041572035020344]
3次元医用画像のセグメンテーションと検出のためのボリュームアテンション(VA)モジュールを提案する。 VAアテンションはビデオ処理の最近の進歩にインスパイアされ、2.5Dネットワークはz方向のコンテキスト情報を活用することができる。そのMask R-CNNへの統合は、肝腫瘍(LiTS)チャレンジにおける最先端のパフォーマンスを可能にすることが示されている。
論文参考訳（メタデータ） (2020-04-04T18:55:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。