論文の概要: MedVR: Annotation-Free Medical Visual Reasoning via Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.08203v1
- Date: Thu, 09 Apr 2026 13:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.925829
- Title: MedVR: Annotation-Free Medical Visual Reasoning via Agentic Reinforcement Learning
- Title(参考訳): MedVR: エージェント強化学習による注釈なしの医用ビジュアル推論
- Authors: Zheng Jiang, Heng Guo, Chengyu Fang, Changchen Xiao, Xinyang Hu, Lifeng Sun, Minfeng Xu,
- Abstract要約: 医療ビジョンランゲージモデル(VLM)は、複雑な臨床業務において大きな可能性を秘めている。
彼らの推論能力は、しばしばテキストのみのパラダイムによって制約される。
この制限は、きめ細かい視覚分析を必要とするタスクのパフォーマンスを抑えるだけでなく、安全クリティカルなアプリケーションにおける視覚幻覚のリスクも引き起こす。
医用VLMのアノテーションのない視覚的推論を可能にする新しい強化学習フレームワークであるMedVRを紹介する。
- 参考スコア(独自算出の注目度): 15.624413588040753
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical Vision-Language Models (VLMs) hold immense promise for complex clinical tasks, but their reasoning capabilities are often constrained by text-only paradigms that fail to ground inferences in visual evidence. This limitation not only curtails performance on tasks requiring fine-grained visual analysis but also introduces risks of visual hallucination in safety-critical applications. Thus, we introduce MedVR, a novel reinforcement learning framework that enables annotation-free visual reasoning for medical VLMs. Its core innovation lies in two synergistic mechanisms: Entropy-guided Visual Regrounding (EVR) uses model uncertainty to direct exploration, while Consensus-based Credit Assignment (CCA) distills pseudo-supervision from rollout agreement. Without any human annotations for intermediate steps, MedVR achieves state-of-the-art performance on diverse public medical VQA benchmarks, significantly outperforming existing models. By learning to reason directly with visual evidence, MedVR promotes the robustness and transparency essential for accelerating the clinical deployment of medical AI.
- Abstract(参考訳): 医療ビジョン・ランゲージモデル(VLM)は複雑な臨床課題に対して大きな可能性を秘めているが、それらの推論能力は、しばしば、視覚的証拠に推論を基礎づけることに失敗するテキストのみのパラダイムによって制限される。
この制限は、きめ細かい視覚分析を必要とするタスクのパフォーマンスを抑えるだけでなく、安全クリティカルなアプリケーションにおける視覚幻覚のリスクも引き起こす。
そこで我々は,医用VLMのアノテーションのない視覚的推論を可能にする新しい強化学習フレームワークであるMedVRを紹介した。
Entropy-guided Visual Regrounding (EVR)はモデルの不確実性を利用して直接探索し、Consensus-based Credit Assignment (CCA)はロールアウト合意から擬似スーパービジョンを抽出する。
中間段階の人間のアノテーションがなければ、MedVRは様々な公開医療用VQAベンチマークで最先端のパフォーマンスを達成し、既存のモデルよりも大幅に優れています。
視覚的エビデンスを直接推論することを学ぶことで、MedVRは、医療AIの臨床的展開を加速するために必要な堅牢性と透明性を促進する。
関連論文リスト
- Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge [66.67024684187915]
LVLM(Large Vision Language Models)は、眼科における自動診断の可能性を秘めている。
彼らの臨床展開は、ドメイン固有の知識の欠如によって著しく妨げられている。
EyExInは、Deep Expert Injectionメカニズムを通じて専門知識で網膜VLMを固定するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2026-03-07T09:43:49Z) - CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework [29.22693846221723]
マルチモーダル・メディカル・推論における,エビデンス・グラウンドド・エージェント・フレームワークによる臨床説明可能性の向上について紹介する。
CAREはタスクを調整されたサブモジュールに分解し、ショートカット学習と幻覚を減らす。
私たちのCARE-Flowは、同じサイズ(10B)のSOTA(State-of-the-art)よりも平均精度を10.9%向上させる
論文 参考訳(メタデータ) (2026-03-02T08:38:37Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - S-Chain: Structured Visual Chain-of-Thought For Medicine [81.97605645734741]
S-Chainは,有界ボックスと構造化ビジュアルCoT(SV-CoT)を備えた,12,000のエキスパートアノテートされた医用画像の最初の大規模データセットである。
データセットはさらに16言語をサポートし、幅広い多言語適用性のための合計700万VQAペアをサポートする。
S-Chainは、根拠のある医療推論のための新しいベンチマークを確立し、より信頼性が高く説明可能な医療ビジョン言語モデルへの道を開く。
論文 参考訳(メタデータ) (2025-10-26T15:57:14Z) - Benchmarking and Mitigate Sycophancy in Medical Vision-Language Models [21.353225217216252]
視覚言語モデルは、しばしば、証拠に基づく推論よりも、社会的手がかりや認識された権威を記述したユーザーとの整合性に優先順位を付ける、幻想的行動を示す。
本研究は, 新規な臨床評価基準を用いて, 医用視覚質問応答における臨床症状について検討した。
論文 参考訳(メタデータ) (2025-09-26T07:02:22Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning [29.84956540178252]
推論は、医用画像解析の進歩における重要なフロンティアである。
我々は、自然言語推論を明示的に生成する医療用VLMであるMedVLM-R1を紹介する。
MedVLM-R1の精度は、MRI、CT、X線ベンチマークで55.11%から78.22%に向上している。
論文 参考訳(メタデータ) (2025-02-26T23:57:34Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - UnICLAM:Contrastive Representation Learning with Adversarial Masking for
Unified and Interpretable Medical Vision Question Answering [7.2486693553383805]
現在のメディカルVQAモデルは、視覚とテクスチャエンコーダを2つの別々の空間に配置することで、クロスモーダル表現を学習する。
本稿では,Unified and Interpretable Medical-VQAモデルであるUnICLAMを提案する。
VQA-RADとSLAKEの公開ベンチマークの実験結果は、UnICLAMが既存の11の最先端の医療VQAモデルより優れていることを示している。
論文 参考訳(メタデータ) (2022-12-21T02:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。