論文の概要: Evo-MedAgent: Beyond One-Shot Diagnosis with Agents That Remember, Reflect, and Improve
- arxiv url: http://arxiv.org/abs/2604.14475v1
- Date: Wed, 15 Apr 2026 23:12:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.645856
- Title: Evo-MedAgent: Beyond One-Shot Diagnosis with Agents That Remember, Reflect, and Improve
- Title(参考訳): Evo-MedAgent: 思い出し、反射し、改善するエージェントによるワンショット診断を超えて
- Authors: Weixiang Shen, Bailiang Jian, Jun Li, Che Liu, Johannes Moll, Xiaobin Hu, Daniel Rueckert, Hongwei Bran Li, Jiazhen Pan,
- Abstract要約: Evo-MedAgentは、テスト時にケース間学習の能力を持つ医療エージェントを装備する自己進化型メモリモジュールである。
ChestAgentBenchでは、Evo-MedAgentは、GPT-5-miniでは0.68から0.79に、Gemini-3 Flashでは0.76から0.87に、多重選択質問(MCQ)の精度を上げた。
- 参考スコア(独自算出の注目度): 33.33369692400618
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tool-augmented large language model (LLM) agents can orchestrate specialist classifiers, segmentation models, and visual question-answering modules to interpret chest X-rays. However, these agents still solve each case in isolation: they fail to accumulate experience across cases, correct recurrent reasoning mistakes, or adapt their tool-use behavior without expensive reinforcement learning. While a radiologist naturally improves with every case, current agents remain static. In this work, we propose Evo-MedAgent, a self-evolving memory module that equips a medical agent with the capacity for inter-case learning at test time. Our memory comprises three complementary stores: (1)~\emph{Retrospective Clinical Episodes} that retrieve problem-solving experiences from similar past cases, (2)~an \emph{Adaptive Procedural Heuristics} bank curating priority-tagged diagnostic rules that evolves via reflection, much like a physician refining their internal criteria, and (3)~a \emph{Tool Reliability Controller} that tracks per-tool trustworthiness. On ChestAgentBench, Evo-MedAgent raises multiple-choice question (MCQ) accuracy from 0.68 to 0.79 on GPT-5-mini, and from 0.76 to 0.87 on Gemini-3 Flash. With a strong base model, evolving memory improves performance more effectively than orchestrating external tools on qualitative diagnostic tasks. Because Evo-MedAgent requires no training, its per-case overhead is bounded by one additional retrieval pass and a single reflection call, making it deployable on top of any frozen model.
- Abstract(参考訳): ツール拡張大型言語モデル(LLM)エージェントは、特殊分類器、セグメンテーションモデル、視覚質問応答モジュールを編成して胸部X線を解釈することができる。
しかし、これらのエージェントは、ケースをまたいだ経験を蓄積したり、繰り返しの推論ミスを正したり、高価な強化学習なしでツール使用行動に適応したり、それぞれのケースを分離して解決する。
放射線学者はあらゆるケースで自然に改善するが、現在のエージェントは静止している。
本研究では,医療エージェントにテスト時のケース間学習能力を持たせる自己進化型メモリモジュールであるEvo-MedAgentを提案する。
我々の記憶は,(1)〜\emph{Retrospective Clinical Episodes} と (2)〜an \emph{Adaptive Procedural Heuristics} の銀行で,医師が内的基準を精査するのと同じように,リフレクションを介して進化する優先タグ付き診断規則を算出し,(3) 〜a \emph{Tool Reliability Controller} は,ツールごとの信頼度を追跡する。
ChestAgentBenchでは、Evo-MedAgentは、GPT-5-miniでは0.68から0.79に、Gemini-3 Flashでは0.76から0.87に、多重選択質問(MCQ)の精度を上げた。
強力なベースモデルにより、メモリの進化は、質的な診断タスクで外部ツールを編成するよりも、パフォーマンスを効果的に向上する。
Evo-MedAgentはトレーニングを必要としないため、ケースごとのオーバーヘッドは1つの追加の検索パスと1つのリフレクションコールによってバウンドされ、任意のフリーズモデル上にデプロイできる。
関連論文リスト
- RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning [53.37068897861388]
MedSAM-Agentは、対話的なセグメンテーションを多段階の自律的な意思決定プロセスとして再構築するフレームワークである。
マルチターン・エンド・ツー・エンドの成果検証を統合した2段階のトレーニングパイプラインを開発した。
6つの医療モダリティと21のデータセットにわたる実験は、MedSAM-Agentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-03T09:47:49Z) - EvoClinician: A Self-Evolving Agent for Multi-Turn Medical Diagnosis via Test-Time Evolutionary Learning [72.70291772077738]
エージェントのマルチターン診断能力を評価するためのベンチマークであるMed-Inquireを提案する。
次に、テスト時に効率的な診断戦略を学ぶ自己進化エージェントであるEvoClinicianを紹介する。
実験の結果,EvoClinicianは連続学習ベースラインや,メモリエージェントなどの自己進化エージェントよりも優れていた。
論文 参考訳(メタデータ) (2026-01-30T13:26:18Z) - MedForget: Hierarchy-Aware Multimodal Unlearning Testbed for Medical AI [66.0701326117134]
MedForgetは、階層型を意識したマルチモーダルなアンラーニングテストベッドで、準拠する医療AIシステムを構築する。
既存の手法は,診断性能を低下させることなく,完全かつ階層性に配慮した忘れの解決に苦慮していることを示す。
階層レベルのコンテキストをプロンプトに徐々に追加する再構成攻撃を導入する。
論文 参考訳(メタデータ) (2025-12-10T17:55:06Z) - Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。
我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。
Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文 参考訳(メタデータ) (2025-11-20T05:01:57Z) - EndoAgent: A Memory-Guided Reflective Agent for Intelligent Endoscopic Vision-to-Decision Reasoning [6.96058549084651]
EndoAgentは、視覚から決定への内視鏡分析のためのメモリ誘導剤である。
反復推論と適応的なツールの選択とコラボレーションを統合する。
一般的なマルチモーダルモデルと医療用マルチモーダルモデルの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-10T11:02:57Z) - Agentic AI with Orchestrator-Agent Trust: A Modular Visual Classification Framework with Trust-Aware Orchestration and RAG-Based Reasoning [3.5648679864643573]
本稿では,マルチモーダルエージェントと非視覚的推論オーケストレータとRetrieval-Augmented Generation (RAG)モジュールを統合した,新しいモジュール型エージェントAI視覚分類フレームワークを提案する。
リンゴ葉病の診断に応用し、ゼロショットと信頼に基づくオーケストレーション、パフォーマンス改善による微調整エージェント、(III)CLIPに基づく画像検索と再評価ループによって強化された信頼度校正オーケストレーションの3つの構成をベンチマークした。
その結果、信頼を意識したオーケストレーションとRAGによるゼロショット設定の精度が77.94%向上し、全体の85.63%が達成された。
論文 参考訳(メタデータ) (2025-07-09T16:39:29Z) - MEDDxAgent: A Unified Modular Agent Framework for Explainable Automatic Differential Diagnosis [17.888920170796457]
鑑別診断(DDx)は、臨床的意思決定の基本的な側面であるが複雑な側面である。
大規模言語モデル(LLM)の最近の進歩は、DDxをサポートすることを約束している。
本稿では,対話型DDx用に設計された Modular Explainable DDx Agent (MEDDxAgent) フレームワークを紹介する。
論文 参考訳(メタデータ) (2025-02-26T14:31:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。