論文の概要: Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery
- arxiv url: http://arxiv.org/abs/2603.05860v1
- Date: Fri, 06 Mar 2026 03:34:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.983462
- Title: Evolving Medical Imaging Agents via Experience-driven Self-skill Discovery
- Title(参考訳): 体験駆動型自己スキル発見による医用イメージングエージェントの進化
- Authors: Lin Fan, Pengyu Dai, Zhipeng Deng, Haolin Wang, Xun Gong, Yefeng Zheng, Yafei Ou,
- Abstract要約: MACROは自己進化型、経験増強型医療エージェントで、静的ツール構成から経験駆動ツール発見へ移行する。
一方、GRPOのようなトレーニングループは、検出されたコンポジットの信頼性の高い呼び出しを補強する。
- 参考スコア(独自算出の注目度): 26.23353599153354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical image interpretation is inherently multi-step and tool-centric: clinicians iteratively combine visual evidence with patient context, quantify findings, and refine their decisions through a sequence of specialized procedures. While LLM-based agents promise to orchestrate such heterogeneous medical tools, existing systems treat tool sets and invocation strategies as static after deployment. This design is brittle under real-world domain shifts, across tasks, and evolving diagnostic requirements, where predefined tool chains frequently degrade and demand costly manual re-design. We propose MACRO, a self-evolving, experience-augmented medical agent that shifts from static tool composition to experience-driven tool discovery. From verified execution trajectories, the agent autonomously identifies recurring effective multi-step tool sequences, synthesizes them into reusable composite tools, and registers these as new high-level primitives that continuously expand its behavioral repertoire. A lightweight image-feature memory grounds tool selection in a visual-clinical context, while a GRPO-like training loop reinforces reliable invocation of discovered composites, enabling closed-loop self-improvement with minimal supervision. Extensive experiments across diverse medical imaging datasets and tasks demonstrate that autonomous composite tool discovery consistently improves multi-step orchestration accuracy and cross-domain generalization over strong baselines and recent state-of-the-art agentic methods, bridging the gap between brittle static tool use and adaptive, context-aware clinical AI assistance. Code will be available upon acceptance.
- Abstract(参考訳): 臨床医は、視覚的エビデンスと患者のコンテキストを反復的に組み合わせ、発見を定量化し、特別な手続きを通じて意思決定を洗練する。
LLMベースのエージェントは、そのような異種医療ツールのオーケストレーションを約束するが、既存のシステムは、ツールセットと呼び出し戦略をデプロイ後に静的に扱う。
この設計は、実際のドメインシフト、タスク間の変更、および事前定義されたツールチェーンが頻繁に劣化し、手作業による設計が要求される診断要件の進化の下で不安定である。
本稿では,静的なツール構成から経験駆動型ツール発見へ移行する,自己進化型体験増強型医療エージェントMACROを提案する。
検証された実行軌跡から、エージェントは、繰り返し有効な多段階ツールシーケンスを自律的に識別し、それらを再利用可能な複合ツールに合成し、行動レパートリーを継続的に拡張する新しいハイレベルプリミティブとして登録する。
一方、GRPOのようなトレーニングループは、検出されたコンポジットの信頼性を高め、最小限の監視でクローズドループ自己改善を可能にする。
多様な医療画像データセットとタスクにわたる大規模な実験により、自律的な複合ツール発見は、強力なベースラインと最近の最先端のエージェントメソッドよりも、多段階のオーケストレーション精度とクロスドメインの一般化を一貫して改善し、脆弱な静的ツールの使用と適応的なコンテキスト認識型臨床AIアシストのギャップを埋めることを示した。
コードは受理後利用可能になる。
関連論文リスト
- MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning [53.37068897861388]
MedSAM-Agentは、対話的なセグメンテーションを多段階の自律的な意思決定プロセスとして再構築するフレームワークである。
マルチターン・エンド・ツー・エンドの成果検証を統合した2段階のトレーニングパイプラインを開発した。
6つの医療モダリティと21のデータセットにわたる実験は、MedSAM-Agentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-03T09:47:49Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - Incentivizing Tool-augmented Thinking with Images for Medical Image Analysis [35.90026194642237]
Ophiuchusは汎用的なツール拡張フレームワークで、MLLMを装備し、追加の視覚的証拠が必要かどうかを判断する。
われわれのアプローチは、ツール統合推論を通じて「イメージで考える」ことができる医療AIエージェントへの道を照らしている。
論文 参考訳(メタデータ) (2025-12-16T07:37:23Z) - CXRAgent: Director-Orchestrated Multi-Stage Reasoning for Chest X-Ray Interpretation [62.0150409256153]
我々は、CXR解釈のためのディレクター調整型多段階エージェントであるCXRAgentを提案する。
エージェントは、Evidence-driven Validatorによって正規化され検証された出力を持つ一連のCXR分析ツールを戦略的にオーケストレーションする。
様々なCXR解釈タスクの実験は、CXRAgentが強いパフォーマンスを示し、視覚的証拠を提供し、異なる複雑さの臨床的タスクにうまく一般化していることを示している。
論文 参考訳(メタデータ) (2025-10-24T10:31:30Z) - ReflecTool: Towards Reflection-Aware Tool-Augmented Clinical Agents [22.596827147978598]
大規模言語モデル(LLM)は医療分野で有望な可能性を示している。
ClinicalAgent Bench (CAB) は、5つの重要な臨床次元にわたる18のタスクからなる総合的な医療エージェントベンチマークである。
ReflecToolはドメイン固有のツールを2段階以内で利用できる新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-23T08:19:18Z) - Automated Ensemble Multimodal Machine Learning for Healthcare [52.500923923797835]
本稿では,自動機械学習を用いた構造化臨床(タブラル)データと医用画像の統合を実現するマルチモーダルフレームワークAutoPrognosis-Mを紹介する。
AutoPrognosis-Mには、畳み込みニューラルネットワークとビジョントランスフォーマーを含む17のイメージングモデルと、3つの異なるマルチモーダル融合戦略が含まれている。
論文 参考訳(メタデータ) (2024-07-25T17:46:38Z) - Learning Multiscale Consistency for Self-supervised Electron Microscopy
Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。
当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。
効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文 参考訳(メタデータ) (2023-08-19T05:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。