論文の概要: HealthAdminBench: Evaluating Computer-Use Agents on Healthcare Administration Tasks
- arxiv url: http://arxiv.org/abs/2604.09937v1
- Date: Fri, 10 Apr 2026 22:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.754072
- Title: HealthAdminBench: Evaluating Computer-Use Agents on Healthcare Administration Tasks
- Title(参考訳): HealthAdminBench: 医療管理タスクにおけるコンピュータ利用エージェントの評価
- Authors: Suhana Bedi, Ryan Welch, Ethan Steinberg, Michael Wornow, Taeil Matthew Kim, Haroun Ahmed, Peter Sterling, Bravim Purohit, Qurat Akram, Angelic Acosta, Esther Nubla, Pritika Sharma, Michael A. Pfeffer, Sanmi Koyejo, Nigam H. Shah,
- Abstract要約: 医療行政の年間支出は1兆ドルを超えており、コンピュータ利用エージェント(CUA)にとって有望な目標となっている。
HealthAdminBenchは、4つの現実的なGUI環境で構成されるベンチマークである。
マルチプロンプトおよび観測条件下でのエージェント構成を7つ評価し, 高いサブタスク性能にもかかわらず, エンドツーエンドの信頼性は低いことがわかった。
- 参考スコア(独自算出の注目度): 19.2699825267806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Healthcare administration accounts for over $1 trillion in annual spending, making it a promising target for LLM-based computer-use agents (CUAs). While clinical applications of LLMs have received significant attention, no benchmark exists for evaluating CUAs on end-to-end administrative workflows. To address this gap, we introduce HealthAdminBench, a benchmark comprising four realistic GUI environments: an EHR, two payer portals, and a fax system, and 135 expert-defined tasks spanning three administrative task types: Prior Authorization, Appeals and Denials Management, and Durable Medical Equipment (DME) Order Processing. Each task is decomposed into fine-grained, verifiable subtasks, yielding 1,698 evaluation points. We evaluate seven agent configurations under multiple prompting and observation settings and find that, despite strong subtask performance, end-to-end reliability remains low: the best-performing agent (Claude Opus 4.6 CUA) achieves only 36.3 percent task success, while GPT-5.4 CUA attains the highest subtask success rate (82.8 percent). These results reveal a substantial gap between current agent capabilities and the demands of real-world administrative workflows. HealthAdminBench provides a rigorous foundation for evaluating progress toward safe and reliable automation of healthcare administrative workflows.
- Abstract(参考訳): 医療行政は年間支出が1兆ドルを超えており、LCMベースのコンピュータ利用エージェント(CUA)にとって有望な目標となっている。
LLMの臨床応用は注目されているが、CUAをエンドツーエンドの管理ワークフローで評価するためのベンチマークは存在しない。
このギャップに対処するため、我々はHealthAdminBenchという4つの現実的なGUI環境、EHR、2つの有料ポータル、ファックスシステム、および3つの管理タスクタイプにまたがる135のエキスパート定義タスクを含むベンチマークを紹介した。
各タスクは細粒度で検証可能なサブタスクに分解され、1,698の評価ポイントを得る。
GPT-5.4 CUAはサブタスク成功率(82.8%)が最も高いのに対して、ベストパフォーマンスエージェント(Claude Opus 4.6 CUA)はわずか36.3%のタスク成功率である。
これらの結果から,現在のエージェント機能と現実の管理ワークフローの要求との間には,大きなギャップがあることがわかった。
HealthAdminBenchは、医療管理ワークフローの安全で信頼性の高い自動化に向けた進捗を評価するための厳格な基盤を提供する。
関連論文リスト
- AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - ART: Action-based Reasoning Task Benchmarking for Medical AI Agents [0.0]
本稿では,医療AIエージェントのためのアクションベース推論臨床タスクベンチマークを紹介する。
検索エラー、集約エラー、条件論理の誤判断の3つの主要なエラーカテゴリを同定する。
我々の4段階パイプラインは、実際の患者データに基づいて、多種多様な臨床的に検証されたタスクを生成します。
論文 参考訳(メタデータ) (2026-01-13T21:26:11Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - UI-CUBE: Enterprise-Grade Computer Use Agent Benchmarking Beyond Task Accuracy to Operational Reliability [35.18016233072556]
We present UI-CUBE (UiPath Computer Use BEnchmark), a benchmark with 226 tasks across two difficulty tiers。
私たちの評価では、シンプルなUIインタラクション(136タスク)と、コピー・ペーストタスク(50タスク)とエンタープライズアプリケーションシナリオ(40タスク)を含む複雑度をカバーしています。
現在のCUAは個々のインターフェイス要素を操作できるが、信頼性の高いワークフロー自動化ツールとして機能することはまだできない。
論文 参考訳(メタデータ) (2025-11-21T10:47:22Z) - Randomized Controlled Trials for Conditional Access Optimization Agent [0.9558392439655014]
Microsoft Entraにおける条件アクセス(CA)ポリシー管理のためのAIエージェントの評価を行った最初のランダム化制御試験(RCT)の結果を報告する。
エージェントアクセスは、精度が48%向上し、タスク完了時間が43%低下し、精度が一定であった。
これらの結果から, 汎用AIエージェントは, アイデンティティ管理における速度と精度の両方を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-11-17T19:33:03Z) - CUARewardBench: A Benchmark for Evaluating Reward Models on Computer-using Agent [46.41047559759938]
CUA(Computer-using Agent)は、オペレーティングシステムやソフトウェアインターフェースとの自然なインタラクションを通じてタスクの完了を可能にするエージェントである。
Reward モデルは有望な代替手段を提供するが、CUA 評価におけるその有効性はほとんど未検討である。
CUARewardBenchは4つの重要なコントリビューションから構成される。
論文 参考訳(メタデータ) (2025-10-21T12:53:40Z) - SCUBA: Salesforce Computer Use Benchmark [63.66753028386581]
SCUBAは、Salesforceプラットフォーム内の顧客関係管理(CRM)上のコンピュータ利用エージェントを評価するために設計されたベンチマークである。
SCUBAには、実際のユーザインタビューから派生した300のタスクインスタンスが含まれており、3つの主要なペルソナ、プラットフォーム管理者、セールス担当者、サービスエージェントで構成されている。
ゼロショット設定とデモ拡張設定の両方で、多様なエージェントのセットをベンチマークします。
論文 参考訳(メタデータ) (2025-09-30T16:48:49Z) - GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging [41.754784344572286]
実際のシナリオでコードエージェントを評価するベンチマークであるGitTaskBenchをリリースしています。
各タスクは、自動化された人為的な評価ハーネスと関連するリポジトリをペアリングする。
また,エージェント性能の経済的利益を定量化するためのα値指標を提案する。
論文 参考訳(メタデータ) (2025-08-26T12:48:05Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。