論文の概要: MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.03320v1
- Date: Tue, 03 Feb 2026 09:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.371991
- Title: MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning
- Title(参考訳): MedSAM-Agent:多ターンエージェント強化学習による対話型医用画像セグメンテーションの活用
- Authors: Shengyuan Liu, Liuxin Bao, Qi Yang, Wanting Geng, Boyun Zheng, Chenxin Li, Wenting Chen, Houwen Peng, Yixuan Yuan,
- Abstract要約: MedSAM-Agentは、対話的なセグメンテーションを多段階の自律的な意思決定プロセスとして再構築するフレームワークである。
マルチターン・エンド・ツー・エンドの成果検証を統合した2段階のトレーニングパイプラインを開発した。
6つの医療モダリティと21のデータセットにわたる実験は、MedSAM-Agentが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 53.37068897861388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image segmentation is evolving from task-specific models toward generalizable frameworks. Recent research leverages Multi-modal Large Language Models (MLLMs) as autonomous agents, employing reinforcement learning with verifiable reward (RLVR) to orchestrate specialized tools like the Segment Anything Model (SAM). However, these approaches often rely on single-turn, rigid interaction strategies and lack process-level supervision during training, which hinders their ability to fully exploit the dynamic potential of interactive tools and leads to redundant actions. To bridge this gap, we propose MedSAM-Agent, a framework that reformulates interactive segmentation as a multi-step autonomous decision-making process. First, we introduce a hybrid prompting strategy for expert-curated trajectory generation, enabling the model to internalize human-like decision heuristics and adaptive refinement strategies. Furthermore, we develop a two-stage training pipeline that integrates multi-turn, end-to-end outcome verification with a clinical-fidelity process reward design to promote interaction parsimony and decision efficiency. Extensive experiments across 6 medical modalities and 21 datasets demonstrate that MedSAM-Agent achieves state-of-the-art performance, effectively unifying autonomous medical reasoning with robust, iterative optimization. Code is available \href{https://github.com/CUHK-AIM-Group/MedSAM-Agent}{here}.
- Abstract(参考訳): 医療画像のセグメンテーションはタスク固有のモデルから一般化可能なフレームワークへと進化している。
近年,マルチモーダル大規模言語モデル(MLLM)を自律エージェントとして活用し,Segment Anything Model(SAM)のような特殊なツールを編成するために,検証可能な報酬付き強化学習(RLVR)を採用している。
しかしながら、これらのアプローチは多くの場合、シングルターンで堅固なインタラクション戦略に依存し、トレーニング中のプロセスレベルの監督が欠如しているため、インタラクティブツールの動的なポテンシャルを完全に活用する能力が損なわれ、冗長なアクションにつながる。
このギャップを埋めるために,対話的セグメンテーションを多段階の自律的意思決定プロセスとして再構成するフレームワークであるMedSAM-Agentを提案する。
まず、専門家による軌道生成のためのハイブリッドプロンプト戦略を導入し、モデルが人間のような意思決定ヒューリスティックと適応的洗練戦略を内在化できるようにする。
さらに,多ターン・エンドツーエンドの結果検証と臨床忠実度プロセス報酬設計を統合した2段階のトレーニングパイプラインを開発し,インタラクションのパーシモニーと意思決定効率を向上する。
6つの医療モダリティと21のデータセットにわたる大規模な実験により、MedSAM-Agentは最先端のパフォーマンスを達成し、堅牢で反復的な最適化による自律的な医療推論を効果的に統一することを示した。
コードは href{https://github.com/CUHK-AIM-Group/MedSAM-Agent}{here} で入手できる。
関連論文リスト
- Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - EndoAgent: A Memory-Guided Reflective Agent for Intelligent Endoscopic Vision-to-Decision Reasoning [6.96058549084651]
EndoAgentは、視覚から決定への内視鏡分析のためのメモリ誘導剤である。
反復推論と適応的なツールの選択とコラボレーションを統合する。
一般的なマルチモーダルモデルと医療用マルチモーダルモデルの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-10T11:02:57Z) - DynamiCare: A Dynamic Multi-Agent Framework for Interactive and Open-Ended Medical Decision-Making [4.801722645791233]
DynamiCareは、臨床診断をマルチラウンドでインタラクティブなループとしてモデル化する、新しい動的マルチエージェントフレームワークである。
広汎な実験を通してダイナミケアの実現可能性と有効性を示す。
論文 参考訳(メタデータ) (2025-07-03T13:43:10Z) - MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks [27.717720332927296]
我々はMedAgentBoardを紹介する。MedAgentBoardは、マルチエージェントコラボレーション、シングルLLM、および従来のアプローチの体系的評価のための総合的なベンチマークである。
MedAgentBoardには、医療(視覚)質問応答、レイサマリ生成、構造化電子健康記録(EHR)予測モデリング、臨床ワークフロー自動化の4つの多様な医療タスクカテゴリが含まれている。
マルチエージェントコラボレーションは特定のシナリオにおいてメリットを示すが、高度な単一LLMを一貫して上回るものではない。
論文 参考訳(メタデータ) (2025-05-18T11:28:17Z) - MORAL: A Multimodal Reinforcement Learning Framework for Decision Making in Autonomous Laboratories [4.503215272392276]
自律的な研究室における意思決定のためのマルチモーダル強化学習フレームワークMORALを提案する。
我々は、事前訓練されたBLIP-2視覚言語モデルで微調整された画像キャプションを生成し、早期融合戦略により視覚特徴と組み合わせる。
実験の結果,マルチモーダルエージェントはタスク完了率を20%向上することがわかった。
論文 参考訳(メタデータ) (2025-04-04T04:15:52Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。