論文の概要: MedEyes: Learning Dynamic Visual Focus for Medical Progressive Diagnosis
- arxiv url: http://arxiv.org/abs/2511.22018v1
- Date: Thu, 27 Nov 2025 01:47:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.350914
- Title: MedEyes: Learning Dynamic Visual Focus for Medical Progressive Diagnosis
- Title(参考訳): MedEyes: 医療進歩診断のためのダイナミックビジュアルフォーカスの学習
- Authors: Chunzheng Zhu, Yangfang Lin, Shen Chen, Yijun Wang, Jianxin Lin,
- Abstract要約: MedEyesは、臨床医スタイルの診断推論を動的にモデル化する強化学習フレームワークである。
二重モード探索法を用いて診断過程をエミュレートし, 組織的異常局所化をスキャンし, 詳細な地域分析を行う。
実験の結果、MedEyesは複数の医療用VQAベンチマークで+8.5%の性能向上を達成した。
- 参考スコア(独自算出の注目度): 17.59077756990045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate medical diagnosis often involves progressive visual focusing and iterative reasoning, characteristics commonly observed in clinical workflows. While recent vision-language models demonstrate promising chain-of-thought (CoT) reasoning capabilities via reinforcement learning with verifiable rewards (RLVR), their purely on-policy learning paradigm tends to reinforce superficially coherent but clinically inaccurate reasoning paths. We propose MedEyes, a novel reinforcement learning framework that dynamically models clinician-style diagnostic reasoning by progressively attending to and interpreting relevant medical image regions. By incorporating off-policy expert guidance, MedEyes converts expert visual search trajectories into structured external behavioral signals, guiding the model toward clinically aligned visual reasoning. We design the Gaze-guided Reasoning Navigator (GRN) to emulate the diagnostic process through a dual-mode exploration strategy, scanning for systematic abnormality localization and drilling for detailed regional analysis. To balance expert imitation and autonomous discovery, we introduce the Confidence Value Sampler (CVS), which employs nucleus sampling and adaptive termination to create diverse yet credible exploration paths. Finally, the dual-stream GRPO optimization framework decouples on-policy and off-policy learning signals, mitigating reward assimilation and entropy collapse. Experiments demonstrate that MedEyes achieves an average performance improvement of +8.5\% across multiple medical VQA benchmarks, validating MedEyes's potential in building interpretable medical AI systems.
- Abstract(参考訳): 正確な診断は、しばしば進歩的な視覚的焦点と反復的推論を伴い、臨床ワークフローでよく見られる特徴である。
近年の視覚言語モデルは、検証可能な報酬(RLVR)による強化学習(RLVR)を通じて、有望な思考の連鎖(CoT)推論能力を示す一方で、純粋に政治的学習パラダイムは、表面的コヒーレントだが臨床的に不正確な推論経路を補強する傾向にある。
MedEyesは,臨床医の診断推論を動的にモデル化し,関連する画像領域に徐々に参加し,解釈する新しい強化学習フレームワークである。
MedEyesは、政治以外の専門家のガイダンスを取り入れることで、専門的なビジュアルサーチの軌跡を構造化された外部行動信号に変換し、臨床的に整合した視覚的推論に向けてモデルを導く。
我々は、二重モード探索戦略により診断過程をエミュレートするGaze-Guided Reasoning Navigator (GRN) を設計し、系統的異常局所化をスキャンし、詳細な地域分析を行う。
専門家の模倣と自律的な発見のバランスをとるために,核サンプリングと適応終端を利用した信頼性値サンプリング(CVS)を導入し,多様な信頼性の高い探索経路を創出する。
最後に、デュアルストリームのGRPO最適化フレームワークは、オン・ポリティとオフ・ポリティクスの学習信号を分離し、報酬の同化とエントロピーの崩壊を緩和する。
実験により、MedEyesは複数の医療用VQAベンチマークで+8.5\%の性能向上を実現しており、解釈可能な医療用AIシステムを構築する上でのMedEyesの可能性を検証することができる。
関連論文リスト
- MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Proactive Reasoning-with-Retrieval Framework for Medical Multimodal Large Language Models [15.530083855947987]
我々は,Med-RwR を用いた最初のマルチモーダル医療推論フレームワークを提案する。
Med-RwRは、推論中に観察された症状やドメイン固有の医療概念を問い合わせることで、外部知識を積極的に回収する。
様々な公開医療ベンチマークの評価は、Med-RwRのベースラインモデルに対する大幅な改善を示している。
論文 参考訳(メタデータ) (2025-10-21T05:18:18Z) - Think Twice to See More: Iterative Visual Reasoning in Medical VLMs [21.083636394814217]
私たちは、人間の専門家の反復的推論プロセスをエミュレートするフレームワークViTARを紹介します。
ViTARは、医療画像をインタラクティブなオブジェクトとして扱い、モデルが多段階の視覚的推論を行えるようにする。
論文 参考訳(メタデータ) (2025-10-11T06:39:57Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Joint enhancement of automatic chest X-ray diagnosis and radiological gaze prediction with multi-stage cooperative learning [2.64700310378485]
胸部X線検査における関節疾患診断のための新しい深層学習フレームワークを提案する。
具体的には、DenseNet201バックボーンとResidualおよびSqueeze-and-Excitationブロックベースのエンコーダの両方を活用する、新しいデュアルエンコーダマルチタスクUNetを導入する。
提案手法は胸部X線診断における既存の手法と視覚的注意マップの精度を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:31:12Z) - Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。
本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文 参考訳(メタデータ) (2023-07-30T16:08:45Z) - An Interpretable Multiple-Instance Approach for the Detection of
referable Diabetic Retinopathy from Fundus Images [72.94446225783697]
基礎画像における参照糖尿病網膜症検出のための機械学習システムを提案する。
画像パッチから局所情報を抽出し,アテンション機構により効率的に組み合わせることで,高い分類精度を実現することができる。
我々は,現在入手可能な網膜画像データセットに対するアプローチを評価し,最先端の性能を示す。
論文 参考訳(メタデータ) (2021-03-02T13:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。