論文の概要: MedCUA-Bench: A Screenshot-Only Benchmark for Clinical Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2606.03203v1
- Date: Tue, 02 Jun 2026 06:02:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.796339
- Title: MedCUA-Bench: A Screenshot-Only Benchmark for Clinical Computer-Use Agents
- Title(参考訳): MedCUA-Bench: 臨床用コンピュータ使用エージェントのスクリーンショット専用ベンチマーク
- Authors: Jia Yu, Zilong Wang, Xinyang Jiang, Dongsheng Li, Shuo Wang,
- Abstract要約: MedCUA-Benchは,臨床用コンピュータ使用エージェントの対話型ベンチマークである。
実際の製品マニュアルとオープンソース医療システムから再構築された10の医療ドメインにわたる18の臨床シナリオをカバーする。
23エージェント中、最高のクローズドソースモデルは54.2%の精度で成功し、実際のOpenEMRでは9%以下にとどまっている。
- 参考スコア(独自算出の注目度): 37.61856213612204
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Computer-use agents could automate repetitive screen-based clinical work, but their reliability in medical graphical user interfaces remains largely unvalidated. Existing benchmarks focus on general web or desktop tasks and underrepresent medical software, which requires domain knowledge, exhibits markedly different UI design from mainstream applications, lacks public testing environments, and demands safety validation beyond task completion. We introduce MedCUA-Bench, an interactive benchmark for clinical computer-use agents. It covers 18 clinical scenarios across 10 medical domains, reconstructed from real product manuals and open-source medical systems to capture authentic clinical interfaces while avoiding licensing and privacy constraints. Each task ships with paired intent- and step-level goals to disentangle clinical reasoning from UI execution, and is evaluated by a deterministic checker over task completion and five clinical safety dimensions. Across 23 agents, the best closed-source model reaches 54.2% strict success, while all models remain below 9% on the real OpenEMR. Open-source agents average only 2.5%, with the best reaching 16.2%. MedCUA-Bench exposes the gap between current agents and reliable clinical software use, providing a reproducible testbed for future research.
- Abstract(参考訳): コンピュータ利用エージェントは、反復的なスクリーンベースの臨床作業を自動化することができるが、医療用グラフィカルユーザインタフェースの信頼性はほとんど無効である。
既存のベンチマークでは、一般的なWebタスクやデスクトップタスクに重点を置いており、ドメイン知識を必要とする医療ソフトウェアが不足している。
MedCUA-Benchは,臨床用コンピュータ使用エージェントの対話型ベンチマークである。
10の医療領域にわたる18の臨床シナリオをカバーし、実際の製品マニュアルやオープンソースの医療システムから再構築して、ライセンスとプライバシーの制約を避けながら、本物の臨床インターフェースをキャプチャする。
各タスクには、UI実行から臨床推論を遠ざけるための意図的目標とステップレベルの目標が組み込まれており、タスク完了に関する決定論的チェッカーと5つの臨床安全次元によって評価される。
23エージェント中、最高のクローズドソースモデルは54.2%の精度で成功し、実際のOpenEMRでは9%以下にとどまっている。
オープンソースエージェントの平均は2.5%であり、最高は16.2%である。
MedCUA-Benchは、現在のエージェントと信頼できる臨床ソフトウェアの使用のギャップを露呈し、将来の研究のために再現可能なテストベッドを提供する。
関連論文リスト
- CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows? [150.84850629123287]
現実的な医療業務のエンドツーエンドの自動化は、現在のベンチマークで不足している3つの機能を強調します。
$-Benchは3つのドメインにわたる長期医療のベンチマークである。
30以上のエージェントハーネス/モデル構成で、最高のエージェントはタスクの28.0%しか解決せず、厳格なパス3では20%をクリアし、単一のセッションですべてのタスクを実行するとパフォーマンスは3.8%に低下する。
論文 参考訳(メタデータ) (2026-05-15T22:34:31Z) - PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments [5.310457397170786]
既存の医療エージェントベンチマークは、主に静的な知識のリコール、単一ステップのアトミックアクション、環境に対する実行を検証せずにアクションインテントに焦点を当てている。
PhysicianBenchは、プライマリケアと医師の実際のケースから適応した100のロングホライゾンタスクで構成されている。
各タスクは構造化されたチェックポイント(ベンチマーク全体で合計670)に分解される。
最高のパフォーマンスモデルはわずか46%の成功率(pass@1)であり、オープンソースモデルは19%に達する。
論文 参考訳(メタデータ) (2026-05-04T05:32:25Z) - LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。
本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。
LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文 参考訳(メタデータ) (2026-02-18T03:59:46Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - MedBrowseComp: Benchmarking Medical Deep Research and Computer Use [10.565661515629412]
MedBrowseCompは、エージェントが医療事実を検索し、合成する能力を体系的にテストするベンチマークである。
臨床シナリオを反映した1,000以上の人為的な質問が含まれている。
MedBrowseCompをフロンティアエージェントシステムに適用すると、パフォーマンスの欠点が10%も低くなる。
論文 参考訳(メタデータ) (2025-05-20T22:42:33Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice with Interactive Sequence [68.05876437208505]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments [2.567146936147657]
シミュレーションされた臨床環境における大規模言語モデル(LLM)の評価のためのマルチモーダルエージェントベンチマークであるAgentClinicを紹介する。
我々は,AgentClinicの逐次決定形式におけるMedQA問題の解決が極めて困難であることに気付き,診断精度が元の精度の10分の1以下に低下することを発見した。
論文 参考訳(メタデータ) (2024-05-13T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。