論文の概要: OpenHospital: A Thing-in-itself Arena for Evolving and Benchmarking LLM-based Collective Intelligence
- arxiv url: http://arxiv.org/abs/2603.14771v1
- Date: Mon, 16 Mar 2026 03:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.022019
- Title: OpenHospital: A Thing-in-itself Arena for Evolving and Benchmarking LLM-based Collective Intelligence
- Title(参考訳): OpenHospital: LLMベースの集団知能の進化とベンチマークのための自己学習アリーナ
- Authors: Peigen Liu, Rui Ding, Yuren Mao, Ziyan Jiang, Yuxiang Ye, Yunjun Gao, Ying Zhang, Renjie Sun, Longbin Lai, Zhengping Qian,
- Abstract要約: 大規模言語モデル(LLM)ベースの集団知能(CI)は、データウォールを克服するための有望なアプローチを示す。
患者エージェントとのインタラクションを通じて,医師エージェントがCIを進化させることができる対話型アリーナであるOpenHospitalを紹介した。
- 参考スコア(独自算出の注目度): 27.006570889272975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM)-based Collective Intelligence (CI) presents a promising approach to overcoming the data wall and continuously boosting the capabilities of LLM agents. However, there is currently no dedicated arena for evolving and benchmarking LLM-based CI. To address this gap, we introduce OpenHospital, an interactive arena where physician agents can evolve CI through interactions with patient agents. This arena employs a data-in-agent-self paradigm that rapidly enhances agent capabilities and provides robust evaluation metrics for benchmarking both medical proficiency and system efficiency. Experiments demonstrate the effectiveness of OpenHospital in both fostering and quantifying CI.
- Abstract(参考訳): LLM(Large Language Model)ベースの集団インテリジェンス(CI)は,データウォールを克服し,LLMエージェントの能力を継続的に向上する,有望なアプローチを提供する。
しかし、現在LSMベースのCIを進化させ、ベンチマークするための専用の領域は存在しない。
このギャップに対処するために,医師エージェントが患者エージェントとのインタラクションを通じてCIを進化させることができる対話型アリーナであるOpenHospitalを紹介した。
このアリーナはデータ・イン・エージェント・セルフ・パラダイムを採用しており、エージェントの能力を急速に向上させ、医療能力とシステム効率のベンチマークのための堅牢な評価指標を提供する。
実験では、CIの育成と定量化におけるOpenHospitalの有効性が示されている。
関連論文リスト
- MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning [53.37068897861388]
MedSAM-Agentは、対話的なセグメンテーションを多段階の自律的な意思決定プロセスとして再構築するフレームワークである。
マルチターン・エンド・ツー・エンドの成果検証を統合した2段階のトレーニングパイプラインを開発した。
6つの医療モダリティと21のデータセットにわたる実験は、MedSAM-Agentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-03T09:47:49Z) - MedAgentBench: A Realistic Virtual EHR Environment to Benchmark Medical LLM Agents [20.96732566767587]
最近の大規模言語モデル(LLM)は、特にエージェントとして機能する能力において顕著な進歩を見せている。
MedAgentBenchは、医療記録コンテキストにおける大規模言語モデルのエージェント能力を評価するために設計された幅広い評価スイートである。
環境は、現代のEMRシステムで使用される標準的なAPIと通信インフラを使用するため、ライブのEMRシステムに容易に移行できる。
論文 参考訳(メタデータ) (2025-01-24T17:21:01Z) - MDAgents: An Adaptive Collaboration of LLMs for Medical Decision-Making [45.74980058831342]
MDAgents(Medical Decision-making Agents)と呼ばれる新しいマルチエージェントフレームワークを導入する。
割り当てられた単独またはグループの共同作業構造は、実際の医療決定過程をエミュレートして、手元にある医療タスクに合わせて調整される。
MDAgentsは医療知識の理解を必要とするタスクに関する10のベンチマークのうち7つのベンチマークで最高のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-04-22T06:30:05Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - MedPerf: Open Benchmarking Platform for Medical Artificial Intelligence
using Federated Evaluation [110.31526448744096]
この可能性を解き明かすには、大規模な異種データに対して医療AIモデルの性能を測定する体系的な方法が必要である、と私たちは主張する。
MedPerfは、医療分野で機械学習をベンチマークするためのオープンフレームワークです。
論文 参考訳(メタデータ) (2021-09-29T18:09:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。