論文の概要: CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?
- arxiv url: http://arxiv.org/abs/2605.16679v2
- Date: Tue, 19 May 2026 05:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.465511
- Title: CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?
- Title(参考訳): CHI-Bench: AIエージェントは、エンド・ツー・エンド、ロング・ホライゾン、ポリシー・リッチなヘルスケアワークフローを自動化できるか?
- Authors: Haolin Chen, Deon Metelski, Leon Qi, Tao Xia, Joonyul Lee, Steve Brown, Kevin Riley, Frank Wang, T. Y. Alvin Liu, Hank Capps MD, Zeyu Tang, Xiangchen Song, Lingjing Kong, Fan Feng, Tianyi Zeng, Zhiwei Liu, Zixian Ma, Hang Jiang, Fangli Geng, Yuan Yuan, Chenyu You, Qingsong Wen, Hua Wei, Yanjie Fu, Yue Zhao, Carl Yang, Biwei Huang, Kun Zhang, Caiming Xiong, Sanmi Koyejo, Eric P. Xing, Philip S. Yu, Weiran Yao,
- Abstract要約: 現実的な医療業務のエンドツーエンドの自動化は、現在のベンチマークで不足している3つの機能を強調します。
$-Benchは3つのドメインにわたる長期医療のベンチマークである。
30以上のエージェントハーネス/モデル構成で、最高のエージェントはタスクの28.0%しか解決せず、厳格なパス3では20%をクリアし、単一のセッションですべてのタスクを実行するとパフォーマンスは3.8%に低下する。
- 参考スコア(独自算出の注目度): 150.84850629123287
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: End-to-end automation of realistic healthcare operations stresses three capabilities underrepresented in current benchmarks: policy density, decisions must be grounded in a large library of medical, insurance, and operational rules; Multi-role composition: a single task requires the agent to play multiple roles with handoffs; and multilateral interaction: intermediate workflow steps are multi-turn dialogs, such as peer-to-peer review and patient outreach. We introduce $χ$-Bench, a benchmark of long-horizon healthcare workflows across three domains: provider prior authorization, payer utilization management, and care management. Each task hands the agent a clinical case in a high-fidelity simulator of 20 healthcare apps exposed via 87 MCP tools, which it must drive to a terminal status through tool calls and writing the role's artifacts, guided by a 1,290+ document managed-care operations handbook skill. Across 30 agent harness/models configurations, the best agent resolves only 28.0% of tasks, no agent clears 20% on strict pass^3, and executing all tasks in a single session slumps the performance to 3.8%. These results raise the hypothesis that similar gaps are likely to surface in other policy-dense, role-composed, irreversible enterprise domains.
- Abstract(参考訳): 現実的な医療業務のエンドツーエンドの自動化は、現在のベンチマークで強調されている3つの機能を強調している: ポリシー密度、決定は、医療、保険、運用ルールの大規模なライブラリに基礎を置く必要がある マルチロール構成: 単一のタスクは、ハンドオフでエージェントに複数の役割を果たさなければならない マルチサイドインタラクション: 中間ワークフローステップは、ピアツーピアレビューや患者アウトリーチなどのマルチターンダイアログである。
これは、プロバイダの事前承認、ペイア利用管理、ケア管理という3つのドメインにわたる長期医療ワークフローのベンチマークです。
各タスクは、87のMCPツールを介して公開された20のヘルスケアアプリの高忠実度シミュレーターに、エージェントに臨床ケースを渡します。
30のエージェントハーネス/モデル構成で、最高のエージェントはタスクの28.0%しか解決せず、厳格なpass^3では20%をクリアし、単一のセッションですべてのタスクを実行するとパフォーマンスは3.8%に低下する。
これらの結果は、同様のギャップが、他のポリシー、ロール・コンポジション、不可逆的なエンタープライズドメインに出現する可能性が高いという仮説を提起する。
関連論文リスト
- MetaCogAgent: A Metacognitive Multi-Agent LLM Framework with Self-Aware Task Delegation [11.486913474115402]
本稿では,メタ認知自己評価ユニットを備えた多エージェント大規模言語モデル(LLM)フレームワークであるMetaCogAgentを提案する。
MetaCogAgentは、AutoGenよりも5%少ないAPIコールを使用し、アンサンブル投票よりも34%少ないタスク精度を82.4%達成している。
論文 参考訳(メタデータ) (2026-05-17T07:12:04Z) - HealthAdminBench: Evaluating Computer-Use Agents on Healthcare Administration Tasks [19.2699825267806]
医療行政の年間支出は1兆ドルを超えており、コンピュータ利用エージェント(CUA)にとって有望な目標となっている。
HealthAdminBenchは、4つの現実的なGUI環境で構成されるベンチマークである。
マルチプロンプトおよび観測条件下でのエージェント構成を7つ評価し, 高いサブタスク性能にもかかわらず, エンドツーエンドの信頼性は低いことがわかった。
論文 参考訳(メタデータ) (2026-04-10T22:33:39Z) - Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence? [35.30497528897595]
Agentic-MMEはマルチモーダルエージェント能力のプロセス検証ベンチマークである。
6つのドメインにまたがる418の現実世界タスクと3つの困難レベルを含んでいる。
2,000以上のステップワイズなチェックポイントがあり、1タスクあたり平均10時間以上の手動アノテーションがある。
論文 参考訳(メタデータ) (2026-04-03T13:02:01Z) - ALARA for Agents: Least-Privilege Context Engineering Through Portable Composable Multi-Agent Teams [0.0]
宣言型コンテキストエージェント・ツール(CAT)データ層を関連ファイルを通じて表現し,各エージェントのツールアクセスとコンテキストを,その役割に必要な最小限に制限する。
システムがこれらのファイルを構造的に解析し強制するため、エージェントのツールリストを変更することで、モデルが従うかもしれない、あるいは従わないかもしれないという提案よりも、保証された振る舞いの変更が生成される。
我々は,ファイル操作,Web検索,マルチステップスクリプティング,ツールチェーン,マルチエージェントデリゲートにまたがる115の実用的なタスクに対して,0.6Bから35Bパラメータのローカルホストモデル22を評価した。
論文 参考訳(メタデータ) (2026-03-20T18:00:09Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation [89.24729958546168]
スマートフォンエージェントは、ユーザーがデバイスを効率的に制御するのを助けるためにますます重要になっている。
We present SPA-Bench, a comprehensive SmartPhone Agent Benchmark designed to evaluate (M)LLM-based agent。
論文 参考訳(メタデータ) (2024-10-19T17:28:48Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。