論文の概要: MEDVISTAGYM: A Scalable Training Environment for Thinking with Medical Images via Tool-Integrated Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.07107v1
- Date: Mon, 12 Jan 2026 00:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.162669
- Title: MEDVISTAGYM: A Scalable Training Environment for Thinking with Medical Images via Tool-Integrated Reinforcement Learning
- Title(参考訳): MEDVISTAGYM:ツール強化強化学習による医用画像思考のためのスケーラブルな学習環境
- Authors: Meng Lu, Yuxing Lu, Yuchen Zhuang, Megan Mullins, Yang Xie, Guanghua Xiao, Charles Fleming, Wenqi Shi, Xuan Wang,
- Abstract要約: 視覚言語モデル(VLM)は、一般的な画像理解において強い性能を発揮するが、医用画像について考えるのに苦労する。
我々はMedVistaGymを紹介した。MedVistaGymはスケーラブルでインタラクティブなトレーニング環境で、医用画像解析のためのツール統合視覚推論のインセンティブを与える。
- 参考スコア(独自算出の注目度): 25.75780053067891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) achieve strong performance on general image understanding but struggle to think with medical images, especially when performing multi-step reasoning through iterative visual interaction. Medical VLMs often rely on static visual embeddings and single-pass inference, preventing models from re-examining, verifying, or refining visual evidence during reasoning. While tool-integrated reasoning offers a promising path forward, open-source VLMs lack the training infrastructure to learn effective tool selection, invocation, and coordination in multi-modal medical reasoning. We introduce MedVistaGym, a scalable and interactive training environment that incentivizes tool-integrated visual reasoning for medical image analysis. MedVistaGym equips VLMs to determine when and which tools to invoke, localize task-relevant image regions, and integrate single or multiple sub-image evidence into interleaved multimodal reasoning within a unified, executable interface for agentic training. Using MedVistaGym, we train MedVistaGym-R1 to interleave tool use with agentic reasoning through trajectory sampling and end-to-end reinforcement learning. Across six medical VQA benchmarks, MedVistaGym-R1-8B exceeds comparably sized tool-augmented baselines by 19.10% to 24.21%, demonstrating that structured agentic training--not tool access alone--unlocks effective tool-integrated reasoning for medical image analysis.
- Abstract(参考訳): 視覚言語モデル(VLM)は、一般的な画像理解において強い性能を発揮するが、医用画像、特に反復的な視覚的相互作用を通じて多段階の推論を行う場合、思考に苦慮する。
医療用VLMは静的な視覚埋め込みとシングルパス推論に依存しており、モデルの再検査、検証、推論中の視覚的証拠の精査を防ぐ。
ツール統合推論は将来性のある道筋を提供するが、オープンソースのVLMは、マルチモーダルな医療推論において効果的なツールの選択、呼び出し、調整を学ぶためのトレーニングインフラが欠如している。
我々はMedVistaGymを紹介した。MedVistaGymはスケーラブルでインタラクティブなトレーニング環境で、医用画像解析のためのツール統合視覚推論のインセンティブを与える。
MedVistaGymは、タスク関連画像領域をいつ、どのツールで呼び出すかを決定し、ローカライズし、単一または複数のサブイメージエビデンスをエージェントトレーニングのための統一された実行可能なインターフェース内でインターリーブされたマルチモーダル推論に統合する。
MedVistaGymを用いて、私たちはMedVistaGym-R1をトレーニングし、軌道サンプリングとエンドツーエンド強化学習を通じて、エージェント推論によるツール使用のインターリーブを行う。
6つのVQAベンチマークで、MedVistaGym-R1-8Bは比較可能な大きさのツール拡張ベースラインを19.10%から24.21%以上越え、構造化されたエージェントトレーニング(ツールアクセスのみではない)が医用画像解析に有効なツール統合推論を解き放つことを示した。
関連論文リスト
- Incentivizing Tool-augmented Thinking with Images for Medical Image Analysis [35.90026194642237]
Ophiuchusは汎用的なツール拡張フレームワークで、MLLMを装備し、追加の視覚的証拠が必要かどうかを判断する。
われわれのアプローチは、ツール統合推論を通じて「イメージで考える」ことができる医療AIエージェントへの道を照らしている。
論文 参考訳(メタデータ) (2025-12-16T07:37:23Z) - Training Multi-Image Vision Agents via End2End Reinforcement Learning [51.81337984526068]
我々は、エンドツーエンドの強化学習によって訓練されたオープンソースの視覚エージェントであるIMAgentを提案する。
マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成する。
我々は、視覚的反射と確認のための2つの特別なツールを開発し、モデルが積極的に画像コンテンツに注意を向けることを可能にする。
論文 参考訳(メタデータ) (2025-12-05T10:02:38Z) - Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs [76.47326680870783]
VISTA-Gymは視覚言語モデル(VLM)におけるツール統合視覚推論能力のインセンティブ化のためのトレーニング環境である。
VISTA-Gymはビジュアルツールの標準化されたインタフェースで様々な実世界のマルチモーダル推論タスクを統合する。
VISTA-R1-8Bは、11の公開推論集約VQAベンチマークにおいて、同様のサイズで最先端のベースラインを9.51%-18.72%上回ることを示す。
論文 参考訳(メタデータ) (2025-11-24T22:58:26Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations [13.991376926757036]
医療データに適した統合型ビジョンランゲージ事前学習フレームワークであるMedUnifierを提案する。
MedUnifierはテキスト基底画像生成機能とマルチモーダル学習戦略をシームレスに統合する。
本手法では, 視覚ベクトル量子化を用いて, クロスモーダル理解のためのより密着的な学習戦略を実現するとともに, マルチモーダル生成品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T21:09:32Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Align, Reason and Learn: Enhancing Medical Vision-and-Language
Pre-training with Knowledge [68.90835997085557]
本稿では,3つの視点から構造化された医療知識を高めるための体系的かつ効果的なアプローチを提案する。
まず、視覚エンコーダと言語エンコーダの表現を知識を通して整列する。
次に,多モード融合モデルに知識を注入し,入力画像とテキストの補足として知識を用いた推論を可能にする。
第3に、知識によって引き起こされるプレテキストタスクを設計することで、画像やテキストの最も重要な情報に重点を置くよう、モデルを指導する。
論文 参考訳(メタデータ) (2022-09-15T08:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。