論文の概要: MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale
- arxiv url: http://arxiv.org/abs/2506.04405v1
- Date: Wed, 04 Jun 2025 19:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.400016
- Title: MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale
- Title(参考訳): MedAgentGym:大規模コードベース医療推論のためのLDMエージェントの訓練
- Authors: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Carl Yang, Yang Xie, Wenqi Shi,
- Abstract要約: MedAgentGYMは、大規模言語モデル(LLM)エージェントのコーディングベースの医療推論能力を高めるために設計された訓練環境である。
72,413のタスクインスタンスを129のカテゴリに分けて構成する。
- 参考スコア(独自算出の注目度): 41.86007333988854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MedAgentGYM, the first publicly available training environment designed to enhance coding-based medical reasoning capabilities in large language model (LLM) agents. MedAgentGYM comprises 72,413 task instances across 129 categories derived from authentic real-world biomedical scenarios. Tasks are encapsulated within executable coding environments, each featuring detailed task descriptions, interactive feedback mechanisms, verifiable ground-truth annotations, and scalable training trajectory generation. Extensive benchmarking of over 30 LLMs reveals a notable performance disparity between commercial API-based models and open-source counterparts. Leveraging MedAgentGYM, Med-Copilot-7B achieves substantial performance gains through supervised fine-tuning (+36.44%) and continued reinforcement learning (+42.47%), emerging as an affordable and privacy-preserving alternative competitive with gpt-4o. By offering both a comprehensive benchmark and accessible, expandable training resources within unified execution environments, MedAgentGYM delivers an integrated platform to develop LLM-based coding assistants for advanced biomedical research and practice.
- Abstract(参考訳): MedAgentGYMは,大規模言語モデル(LLM)エージェントにおける符号化に基づく医療推論能力の向上を目的とした,最初の公開トレーニング環境である。
MedAgentGYMは129のカテゴリで72,413のタスクインスタンスで構成されている。
タスクは実行可能なコーディング環境内にカプセル化され、それぞれが詳細なタスク記述、インタラクティブなフィードバックメカニズム、検証可能な地平アノテーション、スケーラブルなトレーニングトラジェクトリ生成を備えている。
30を超えるLLMの大規模なベンチマークでは、商用APIベースモデルとオープンソースモデルとの顕著なパフォーマンス格差が明らかになっている。
MedAgentGYMを活用して、Med-Copilot-7Bは教師付き微調整(+36.44%)と強化学習(+42.47%)を通じて大幅な性能向上を実現し、gpt-4oと競合する安価でプライバシー保護の代替手段として登場した。
MedAgentGYMは、包括的なベンチマークと統合実行環境内の拡張可能なトレーニングリソースを提供することにより、高度なバイオメディカル研究と実践のためのLLMベースのコーディングアシスタントを開発する統合プラットフォームを提供する。
関連論文リスト
- MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning [63.63542462400175]
医療エージェント間の動的に最適化された協調を可能にする強化学習に基づくマルチエージェントフレームワークMMedAgent-RLを提案する。
具体的には、Qwen2.5-VLに基づく2つのGPエージェントをRLを介して訓練する: トリアージ医師は患者を適切な専門分野に割り当てることを学ぶ一方、主治医はマルチスペシャリストの判断を統合する。
5つのVQAベンチマークの実験では、MMedAgent-RLはオープンソースおよびプロプライエタリなMed-LVLMよりも優れており、人間のような推論パターンも示している。
論文 参考訳(メタデータ) (2025-05-31T13:22:55Z) - MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks [17.567786780266353]
我々はMedAgentBoardを紹介する。MedAgentBoardは、マルチエージェントコラボレーション、シングルLLM、および従来のアプローチの体系的評価のための総合的なベンチマークである。
MedAgentBoardには、医療(視覚)質問応答、レイサマリ生成、構造化電子健康記録(EHR)予測モデリング、臨床ワークフロー自動化の4つの多様な医療タスクカテゴリが含まれている。
マルチエージェントコラボレーションは特定のシナリオにおいてメリットを示すが、高度な単一LLMを一貫して上回るものではない。
論文 参考訳(メタデータ) (2025-05-18T11:28:17Z) - Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training [69.13064064991552]
Hephaestus-Forgeは、API関数呼び出し、本質的な推論、計画におけるLLMエージェントの機能を強化するために設計された大規模な事前トレーニングコーパスである。
Hephaestus-Forgeは、76,537のAPIを含む103Bのエージェント固有のデータで構成されている。
Hephaestus-Forge上でのトレーニングの継続により、Hephaestusは3つのエージェントベンチマークで、小規模から中規模のオープンソースLLMと商用LLMに匹敵するパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2025-02-10T15:54:34Z) - MedAgentBench: A Realistic Virtual EHR Environment to Benchmark Medical LLM Agents [20.96732566767587]
最近の大規模言語モデル(LLM)は、特にエージェントとして機能する能力において顕著な進歩を見せている。
MedAgentBenchは、医療記録コンテキストにおける大規模言語モデルのエージェント能力を評価するために設計された幅広い評価スイートである。
環境は、現代のEMRシステムで使用される標準的なAPIと通信インフラを使用するため、ライブのEMRシステムに容易に移行できる。
論文 参考訳(メタデータ) (2025-01-24T17:21:01Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - MDAgents: An Adaptive Collaboration of LLMs for Medical Decision-Making [45.74980058831342]
MDAgents(Medical Decision-making Agents)と呼ばれる新しいマルチエージェントフレームワークを導入する。
割り当てられた単独またはグループの共同作業構造は、実際の医療決定過程をエミュレートして、手元にある医療タスクに合わせて調整される。
MDAgentsは医療知識の理解を必要とするタスクに関する10のベンチマークのうち7つのベンチマークで最高のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-04-22T06:30:05Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。