論文の概要: MedAgentGym: A Scalable Agentic Training Environment for Code-Centric Reasoning in Biomedical Data Science
- arxiv url: http://arxiv.org/abs/2506.04405v2
- Date: Sun, 05 Oct 2025 17:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.081301
- Title: MedAgentGym: A Scalable Agentic Training Environment for Code-Centric Reasoning in Biomedical Data Science
- Title(参考訳): MedAgentGym: バイオメディカルデータサイエンスにおけるコード中心推論のためのスケーラブルなエージェント訓練環境
- Authors: Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Zifeng Wang, Xiangru Tang, Hang Wu, May D. Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Xin Liu, Carl Yang, Yang Xie, Wenqi Shi,
- Abstract要約: MedAgentGymは,大規模言語モデル(LLM)エージェントのコーディングに基づく生物医学的推論能力を向上させるために設計された,スケーラブルでインタラクティブなトレーニング環境である。
MedAgentGymは12の本物の現実世界のバイオメディカルシナリオから派生した129のカテゴリにわたる72,413のタスクインスタンスで構成されている。
- 参考スコア(独自算出の注目度): 36.16286206642149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MedAgentGym, a scalable and interactive training environment designed to enhance coding-based biomedical reasoning capabilities in large language model (LLM) agents. MedAgentGym comprises 72,413 task instances across 129 categories derived from 12 authentic real-world biomedical scenarios. Tasks are encapsulated within executable sandbox environments, each featuring detailed task specifications, interactive feedback mechanisms, verifiable ground truth annotations, and scalable training trajectory generation. Extensive benchmarking of 29 LLMs reveals substantial performance disparities in biomedical data science between commercial and open-source LLMs. Leveraging efficient multi-threaded and multi-turn trajectory sampling in MedAgentGym, Med-Copilot achieves performance gains of +43.02% and +45.28% from offline and online reinforcement learning, respectively, demonstrating MedAgentGym as an effective training ground while establishing itself as a cost-effective, privacy-preserving alternative competitive with proprietary LLMs (gpt-4o). By offering a unified execution environment with a comprehensive benchmark and accessible, extensible training resources, MedAgentGym delivers an integrated platform to develop LLM-based coding assistants for advanced biomedical data science.
- Abstract(参考訳): MedAgentGymは,大規模言語モデル(LLM)エージェントのコーディングに基づく生物医学的推論能力を向上させるために設計された,スケーラブルでインタラクティブなトレーニング環境である。
MedAgentGymは12の本物の現実世界のバイオメディカルシナリオから派生した129のカテゴリにわたる72,413のタスクインスタンスで構成されている。
タスクは実行可能なサンドボックス環境にカプセル化され、それぞれが詳細なタスク仕様、インタラクティブなフィードバックメカニズム、検証済みの真実アノテーション、スケーラブルなトレーニングトラジェクトリ生成を備えている。
29のLLMの大規模なベンチマークにより、商用とオープンソースのLLM間のバイオメディカルデータ科学における性能の相違が明らかとなった。
MedAgentGymで効率的なマルチスレッドとマルチターンの軌道サンプリングを利用すると、Med-Copilotはオフラインとオンラインの強化学習から+43.02%と+45.28%のパフォーマンス向上を達成する。
MedAgentGymは、包括的なベンチマークとアクセス可能で拡張可能なトレーニングリソースを備えた統一された実行環境を提供することで、高度なバイオメディカルデータサイエンスのためのLLMベースのコーディングアシスタントを開発するための統合プラットフォームを提供する。
関連論文リスト
- MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning [63.63542462400175]
医療エージェント間の動的に最適化された協調を可能にする強化学習に基づくマルチエージェントフレームワークMMedAgent-RLを提案する。
具体的には、Qwen2.5-VLに基づく2つのGPエージェントをRLを介して訓練する: トリアージ医師は患者を適切な専門分野に割り当てることを学ぶ一方、主治医はマルチスペシャリストの判断を統合する。
5つのVQAベンチマークの実験では、MMedAgent-RLはオープンソースおよびプロプライエタリなMed-LVLMよりも優れており、人間のような推論パターンも示している。
論文 参考訳(メタデータ) (2025-05-31T13:22:55Z) - MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks [17.567786780266353]
我々はMedAgentBoardを紹介する。MedAgentBoardは、マルチエージェントコラボレーション、シングルLLM、および従来のアプローチの体系的評価のための総合的なベンチマークである。
MedAgentBoardには、医療(視覚)質問応答、レイサマリ生成、構造化電子健康記録(EHR)予測モデリング、臨床ワークフロー自動化の4つの多様な医療タスクカテゴリが含まれている。
マルチエージェントコラボレーションは特定のシナリオにおいてメリットを示すが、高度な単一LLMを一貫して上回るものではない。
論文 参考訳(メタデータ) (2025-05-18T11:28:17Z) - m-KAILIN: Knowledge-Driven Agentic Scientific Corpus Distillation Framework for Biomedical Large Language Models Training [22.996230737442254]
バイオメディカルな大規模言語モデル(LLM)のためのコーパスヘッダーは、オープンソースの科学コーパスにおいて、不十分な量と品質のプレス課題に対処しようとしている。
本稿では, バイオメディカル領域におけるLLMトレーニングに適した, 科学的コーパス蒸留のための知識駆動型エージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T08:18:24Z) - Hephaestus: Improving Fundamental Agent Capabilities of Large Language Models through Continual Pre-Training [69.13064064991552]
Hephaestus-Forgeは、API関数呼び出し、本質的な推論、計画におけるLLMエージェントの機能を強化するために設計された大規模な事前トレーニングコーパスである。
Hephaestus-Forgeは、76,537のAPIを含む103Bのエージェント固有のデータで構成されている。
Hephaestus-Forge上でのトレーニングの継続により、Hephaestusは3つのエージェントベンチマークで、小規模から中規模のオープンソースLLMと商用LLMに匹敵するパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2025-02-10T15:54:34Z) - MedAgentBench: A Realistic Virtual EHR Environment to Benchmark Medical LLM Agents [20.96732566767587]
最近の大規模言語モデル(LLM)は、特にエージェントとして機能する能力において顕著な進歩を見せている。
MedAgentBenchは、医療記録コンテキストにおける大規模言語モデルのエージェント能力を評価するために設計された幅広い評価スイートである。
環境は、現代のEMRシステムで使用される標準的なAPIと通信インフラを使用するため、ライブのEMRシステムに容易に移行できる。
論文 参考訳(メタデータ) (2025-01-24T17:21:01Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - MDAgents: An Adaptive Collaboration of LLMs for Medical Decision-Making [45.74980058831342]
MDAgents(Medical Decision-making Agents)と呼ばれる新しいマルチエージェントフレームワークを導入する。
割り当てられた単独またはグループの共同作業構造は、実際の医療決定過程をエミュレートして、手元にある医療タスクに合わせて調整される。
MDAgentsは医療知識の理解を必要とするタスクに関する10のベンチマークのうち7つのベンチマークで最高のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-04-22T06:30:05Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。