論文の概要: Incentivizing Tool-augmented Thinking with Images for Medical Image Analysis
- arxiv url: http://arxiv.org/abs/2512.14157v1
- Date: Tue, 16 Dec 2025 07:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.624937
- Title: Incentivizing Tool-augmented Thinking with Images for Medical Image Analysis
- Title(参考訳): 医用画像分析のための画像を用いたツール強化思考のインセンティブ化
- Authors: Yankai Jiang, Yujie Zhang, Peng Zhang, Yichen Li, Jintai Chen, Xiaoming Shi, Shihui Zhen,
- Abstract要約: Ophiuchusは汎用的なツール拡張フレームワークで、MLLMを装備し、追加の視覚的証拠が必要かどうかを判断する。
われわれのアプローチは、ツール統合推論を通じて「イメージで考える」ことができる医療AIエージェントへの道を照らしている。
- 参考スコア(独自算出の注目度): 35.90026194642237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent reasoning based medical MLLMs have made progress in generating step by step textual reasoning chains. However, they still struggle with complex tasks that necessitate dynamic and iterative focusing on fine-grained visual regions to achieve precise grounding and diagnosis. We introduce Ophiuchus, a versatile, tool-augmented framework that equips an MLLM to (i) decide when additional visual evidence is needed, (ii) determine where to probe and ground within the medical image, and (iii) seamlessly weave the relevant sub-image content back into an interleaved, multimodal chain of thought. In contrast to prior approaches limited by the performance ceiling of specialized tools, Ophiuchus integrates the model's inherent grounding and perception capabilities with external tools, thereby fostering higher-level reasoning. The core of our method is a three-stage training strategy: cold-start training with tool-integrated reasoning data to achieve basic tool selection and adaptation for inspecting key regions; self-reflection fine-tuning to strengthen reflective reasoning and encourage revisiting tool outputs; and Agentic Tool Reinforcement Learning to directly optimize task-specific rewards and emulate expert-like diagnostic behavior. Extensive experiments show that Ophiuchus consistently outperforms both closed-source and open-source SOTA methods across diverse medical benchmarks, including VQA, detection, and reasoning-based segmentation. Our approach illuminates a path toward medical AI agents that can genuinely "think with images" through tool-integrated reasoning. Datasets, codes, and trained models will be released publicly.
- Abstract(参考訳): 最近の推論に基づく医療MLLMは、段階的テキスト推論チェーンによって段階的に進行している。
しかし、彼らは、正確な接地と診断を達成するために、きめ細かい視覚領域に動的で反復的な注力を必要とする複雑なタスクに苦慮している。
OphiuchusはMLLMを組み込んだ多用途ツール拡張フレームワークである。
一 追加の視覚的証拠が必要と認めるとき。
二 医用画像内の探傷場所及び接地場所を定めること。
三)関係するサブイメージの内容をシームレスに、インターリーブされたマルチモーダルな思考の連鎖に織り戻すこと。
特殊なツールのパフォーマンスの天井によって制限された以前のアプローチとは対照的に、Ophiuchusはモデル固有の基盤と知覚能力を外部ツールと統合し、より高いレベルの推論を促進する。
本手法の中核は3段階のトレーニング戦略である: ツール統合推論データを用いた冷間開始訓練により、キー領域を検査するための基本的なツール選択と適応を達成すること、反射的推論を強化し、再考ツール出力を促進する自己回帰微調整、タスク固有の報酬を直接最適化し、専門家のような診断行動をエミュレートするエージェントツール強化学習である。
大規模な実験により、OphiuchusはVQA、検出、推論に基づくセグメンテーションを含む様々な医学ベンチマークにおいて、クローズドソースとオープンソース両方のSOTAメソッドを一貫して上回っていることがわかった。
われわれのアプローチは、ツール統合推論を通じて「イメージで考える」ことができる医療AIエージェントへの道を照らしている。
データセット、コード、トレーニングされたモデルが公開される。
関連論文リスト
- MedEyes: Learning Dynamic Visual Focus for Medical Progressive Diagnosis [17.59077756990045]
MedEyesは、臨床医スタイルの診断推論を動的にモデル化する強化学習フレームワークである。
二重モード探索法を用いて診断過程をエミュレートし, 組織的異常局所化をスキャンし, 詳細な地域分析を行う。
実験の結果、MedEyesは複数の医療用VQAベンチマークで+8.5%の性能向上を達成した。
論文 参考訳(メタデータ) (2025-11-27T01:47:43Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - EndoAgent: A Memory-Guided Reflective Agent for Intelligent Endoscopic Vision-to-Decision Reasoning [6.96058549084651]
EndoAgentは、視覚から決定への内視鏡分析のためのメモリ誘導剤である。
反復推論と適応的なツールの選択とコラボレーションを統合する。
一般的なマルチモーダルモデルと医療用マルチモーダルモデルの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-10T11:02:57Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - AURA: A Multi-Modal Medical Agent for Understanding, Reasoning & Annotation [0.8397730500554048]
AURAは、医用画像の包括的分析、説明、評価のために特別に設計された最初の視覚的言語説明性エージェントである。
AURAは、より透明性があり、適応可能で、臨床的に整合したAIシステムに向けた大きな進歩を示している。
論文 参考訳(メタデータ) (2025-07-22T18:24:18Z) - GEMeX-RMCoT: An Enhanced Med-VQA Dataset for Region-Aware Multimodal Chain-of-Thought Reasoning [60.03671205298294]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現在の方法はまだ、答えの信頼性の制限と解釈性の低下に悩まされている。
この研究はまず、回答を生成するプロセスが中間的推論ステップのシーケンスに先行する領域対応マルチモーダル・チェーン・オブ・ソートデータセットを提案する。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Chiron-o1: Igniting Multimodal Large Language Models towards Generalizable Medical Reasoning via Mentor-Intern Collaborative Search [41.81463064393831]
マルチモーダルな大規模言語モデル(MLLM)は、一般的なタスクに対して堅牢な推論能力を実証し始めているが、医療分野への応用はまだ初期段階にある。
我々は、厳密で効果的な医療用CoTデータを生成するための新しい推論パス探索手法であるMentor-Intern Collaborative Search (MICS)を提案する。
我々は,難易度の高いマルチタスク医療推論データセットであるMMRPと,カリキュラム学習戦略によって考案された新しい医療MLLMであるChiron-o1を構築した。
論文 参考訳(メタデータ) (2025-06-20T12:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。