Fugu-MT 論文翻訳(概要): MedAgentBench: A Realistic Virtual EHR Environment to Benchmark Medical LLM Agents

論文の概要: MedAgentBench: A Realistic Virtual EHR Environment to Benchmark Medical LLM Agents

arxiv url: http://arxiv.org/abs/2501.14654v2
Date: Wed, 12 Feb 2025 05:32:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 15:57:39.797302
Title: MedAgentBench: A Realistic Virtual EHR Environment to Benchmark Medical LLM Agents
Title（参考訳）: MedAgentBench:医療用LLMエージェントをベンチマークするための現実的な仮想EHR環境
Authors: Yixing Jiang, Kameron C. Black, Gloria Geng, Danny Park, James Zou, Andrew Y. Ng, Jonathan H. Chen,
Abstract要約: 最近の大規模言語モデル(LLM)は、特にエージェントとして機能する能力において顕著な進歩を見せている。 MedAgentBenchは、医療記録コンテキストにおける大規模言語モデルのエージェント能力を評価するために設計された幅広い評価スイートである。環境は、現代のEMRシステムで使用される標準的なAPIと通信インフラを使用するため、ライブのEMRシステムに容易に移行できる。
参考スコア（独自算出の注目度）: 20.96732566767587
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent large language models (LLMs) have demonstrated significant advancements, particularly in their ability to serve as agents thereby surpassing their traditional role as chatbots. These agents can leverage their planning and tool utilization capabilities to address tasks specified at a high level. However, a standardized dataset to benchmark the agent capabilities of LLMs in medical applications is currently lacking, making the evaluation of LLMs on complex tasks in interactive healthcare environments challenging. To address this gap, we introduce MedAgentBench, a broad evaluation suite designed to assess the agent capabilities of large language models within medical records contexts. MedAgentBench encompasses 300 patient-specific clinically-derived tasks from 10 categories written by human physicians, realistic profiles of 100 patients with over 700,000 data elements, a FHIR-compliant interactive environment, and an accompanying codebase. The environment uses the standard APIs and communication infrastructure used in modern EMR systems, so it can be easily migrated into live EMR systems. MedAgentBench presents an unsaturated agent-oriented benchmark that current state-of-the-art LLMs exhibit some ability to succeed at. The best model (Claude 3.5 Sonnet v2) achieves a success rate of 69.67%. However, there is still substantial space for improvement which gives the community a next direction to optimize. Furthermore, there is significant variation in performance across task categories. MedAgentBench establishes this and is publicly available at https://github.com/stanfordmlgroup/MedAgentBench , offering a valuable framework for model developers to track progress and drive continuous improvements in the agent capabilities of large language models within the medical domain.
Abstract（参考訳）: 最近の大規模言語モデル(LLM)は、特にエージェントとして機能し、チャットボットとしての伝統的な役割を超越する能力において、大きな進歩を見せている。これらのエージェントは、高いレベルで指定されたタスクに対処するために、計画とツールの利用能力を活用することができる。しかし、医療応用におけるLSMのエージェント能力のベンチマークを行うための標準化されたデータセットは、現在不足しており、対話型医療環境における複雑なタスクにおけるLSMの評価は困難である。このギャップに対処するために、医療記録コンテキストにおける大規模言語モデルのエージェント能力を評価するために設計された幅広い評価スイートであるMedAgentBenchを紹介する。 MedAgentBenchには、人間の医師が書いた10のカテゴリから、300人の患者固有の臨床由来のタスク、70,000以上のデータ要素を持つ100人の患者の現実的なプロファイル、FHIR準拠のインタラクティブ環境、それに付随するコードベースが含まれている。環境は、現代のEMRシステムで使用される標準的なAPIと通信インフラを使用するため、ライブのEMRシステムに容易に移行できる。 MedAgentBenchは、現在の最先端のLLMが成功する能力を示す不飽和エージェント指向のベンチマークを提示している。最良のモデル(Claude 3.5 Sonnet v2)は69.67%の成功率を達成した。しかし、コミュニティに最適化の次の方向性を与えるような改善の余地は、まだたくさんある。さらに、タスクカテゴリ間でパフォーマンスに大きな変化がある。 MedAgentBenchは、これを確立し、https://github.com/stanfordmlgroup/MedAgentBenchで公開されている。このフレームワークは、モデル開発者が進捗を追跡し、医療領域内の大きな言語モデルのエージェント能力の継続的な改善を促進するための貴重なフレームワークを提供する。

関連論文リスト

LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools? [50.60770039016318]
モデルコンテキストプロトコル(MCP)エージェントをベンチマークする最初の総合ベンチマークであるLiveMCPBenchを紹介する。 LiveMCPBenchは、MPPエコシステムに根ざした95の現実世界のタスクで構成されている。評価は10の先行モデルを対象としており、最高の性能のモデルが78.95%の成功率に達した。
論文参考訳（メタデータ） (2025-08-03T14:36:42Z)
MedAgentGym: Training LLM Agents for Code-Based Medical Reasoning at Scale [41.86007333988854]
MedAgentGYMは、大規模言語モデル(LLM)エージェントのコーディングベースの医療推論能力を高めるために設計された訓練環境である。 72,413のタスクインスタンスを129のカテゴリに分けて構成する。
論文参考訳（メタデータ） (2025-06-04T19:38:55Z)
DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery [54.79763887844838]
大規模言語モデル(LLM)と自律エージェントの統合は、自動推論とタスク実行を通じて科学的発見を促進する大きな可能性を秘めている。本稿では,薬物発見におけるエンドツーエンド科学のために設計されたパラメータ化推論アーキテクチャを備えたLSMベースのエージェントシステムであるDrarmPilotを紹介する。 DrugPilot は ReAct や LoT のような最先端のエージェントよりも優れており、タスク完了率は98.0%、93.5%、64.0%である。
論文参考訳（メタデータ） (2025-05-20T05:18:15Z)
MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks [17.567786780266353]
我々はMedAgentBoardを紹介する。MedAgentBoardは、マルチエージェントコラボレーション、シングルLLM、および従来のアプローチの体系的評価のための総合的なベンチマークである。 MedAgentBoardには、医療(視覚)質問応答、レイサマリ生成、構造化電子健康記録(EHR)予測モデリング、臨床ワークフロー自動化の4つの多様な医療タスクカテゴリが含まれている。マルチエージェントコラボレーションは特定のシナリオにおいてメリットを示すが、高度な単一LLMを一貫して上回るものではない。
論文参考訳（メタデータ） (2025-05-18T11:28:17Z)
Self-Evolving Multi-Agent Simulations for Realistic Clinical Interactions [16.50490537786593]
MedAgentSimは、医師、患者、測定エージェントによる、オープンソースのシミュレートされた臨床環境である。従来のアプローチとは違って,本フレームワークでは,マルチターン会話を通じて医師が患者と活発に交流する必要がある。我々は、モデルが診断戦略を反復的に洗練できる自己改善メカニズムを組み込んだ。
論文参考訳（メタデータ） (2025-03-28T17:59:53Z)
Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
大規模言語モデル(LLM)は、様々な領域にわたる精度と解釈性の向上を提供する。本論文は, コンクリートラジオロジー剤構築の前提条件について検討することを目的とする。 LLMをベースとしたエージェントのための総合的な総合的総合評価データセットRadABench-Dataを提案する。第二にRadABench-EvalPlatは、プロンプト駆動ワークフローを特徴とするエージェントのための新しい評価プラットフォームである。
論文参考訳（メタデータ） (2024-12-12T18:20:16Z)
SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。 We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文参考訳（メタデータ） (2024-10-19T17:28:48Z)
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。 IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文参考訳（メタデータ） (2024-07-09T17:33:24Z)
MMedAgent: Learning to Use Medical Tools with Multi-modal Agent [27.314055140281432]
本報告では,医療分野向けに設計された最初のエージェントである textbfMulti-modal textbfMedical textbfAgent (MMedAgent) を紹介する。 MMedAgentは、最先端のオープンソース手法やクローズドソースモデルであるGPT-4oと比較して、様々な医療タスクにおいて優れた性能を発揮することを示す総合的な実験である。
論文参考訳（メタデータ） (2024-07-02T17:58:23Z)
AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文参考訳（メタデータ） (2024-06-06T15:15:41Z)
AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文参考訳（メタデータ） (2024-05-13T17:38:53Z)
Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents [19.721008909326024]
大規模言語モデル(LLM)は、医療人工知能(AI)における新しい技術革新の波を引き起こした治療過程全体をシミュレートした,エージェント病院という病院のシミュラムを紹介した。シラクラム内では、医師は、手動でトレーニングデータをラベル付けすることなく、多数の患者エージェントを治療することで、進化することができる。
論文参考訳（メタデータ） (2024-05-05T14:53:51Z)
Benchmarking Mobile Device Control Agents across Diverse Configurations [19.01954948183538]
B-MoCAは、モバイルデバイス制御エージェントの評価と開発のためのベンチマークである。我々は,大規模言語モデル (LLM) やマルチモーダル LLM を用いたエージェントを含む多種多様なエージェントをベンチマークする。これらのエージェントは、簡単なタスクの実行の熟練度を示す一方で、複雑なタスクにおけるパフォーマンスの低さは、将来の研究が有効性を改善するための重要な機会を浮き彫りにしている。
論文参考訳（メタデータ） (2024-04-25T14:56:32Z)
MDAgents: An Adaptive Collaboration of LLMs for Medical Decision-Making [45.74980058831342]
MDAgents(Medical Decision-making Agents)と呼ばれる新しいマルチエージェントフレームワークを導入する。割り当てられた単独またはグループの共同作業構造は、実際の医療決定過程をエミュレートして、手元にある医療タスクに合わせて調整される。 MDAgentsは医療知識の理解を必要とするタスクに関する10のベンチマークのうち7つのベンチマークで最高のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-04-22T06:30:05Z)
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文参考訳（メタデータ） (2024-03-19T16:26:10Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
EHRAgent: Code Empowers Large Language Models for Few-shot Complex Tabular Reasoning on Electronic Health Records [47.5632532642591]
大規模言語モデル(LLM)は、計画とツールの利用において例外的な能力を示した。コードインタフェースを備えたLLMエージェントであるEHRAgentを提案し,マルチタブラル推論のためのコードの自動生成と実行を行う。
論文参考訳（メタデータ） (2024-01-13T18:09:05Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。