論文の概要: UI-CUBE: Enterprise-Grade Computer Use Agent Benchmarking Beyond Task Accuracy to Operational Reliability
- arxiv url: http://arxiv.org/abs/2511.17131v1
- Date: Fri, 21 Nov 2025 10:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.976457
- Title: UI-CUBE: Enterprise-Grade Computer Use Agent Benchmarking Beyond Task Accuracy to Operational Reliability
- Title(参考訳): UI-CUBE: タスクの正確さから信頼性まで,エンタープライズグレードのコンピュータ使用エージェントベンチマーク
- Authors: Horia Cristescu, Charles Park, Trong Canh Nguyen, Sergiu Talmacel, Alexandru-Gabriel Ilie, Stefan Adam,
- Abstract要約: We present UI-CUBE (UiPath Computer Use BEnchmark), a benchmark with 226 tasks across two difficulty tiers。
私たちの評価では、シンプルなUIインタラクション(136タスク)と、コピー・ペーストタスク(50タスク)とエンタープライズアプリケーションシナリオ(40タスク)を含む複雑度をカバーしています。
現在のCUAは個々のインターフェイス要素を操作できるが、信頼性の高いワークフロー自動化ツールとして機能することはまだできない。
- 参考スコア(独自算出の注目度): 35.18016233072556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While current Computer Use Agent (CUA) benchmarks measure task completion effectively, they provide limited assessment of enterprise deployment readiness, emphasizing functional correctness over the operational reliability required for production systems. We present UI-CUBE (UiPath Computer Use BEnchmark), a systematic benchmark comprising 226 tasks across two difficulty tiers designed to expose fundamental architectural limitations in current CUAs. Our evaluation covers simple UI interactions (136 tasks) and complex workflows including copy-paste tasks (50 tasks) and enterprise application scenarios (40 tasks), with systematic interface variation coverage, multi-resolution testing and automated validation of task success through the application state. Evaluation of five state-of-the-art models reveals a sharp capability cliff rather than gradual performance degradation. Simple UI interactions achieve 67-85% success rates (compared to 97.9% human performance), but complex workflows drop precipitously to 9-19%. Human evaluators with no prior application experience achieve only 61.2% on complex tasks despite near-perfect performance on simple tasks, establishing realistic performance ceilings. This discontinuous performance pattern -- where agents achieve 68-87% of human performance on simple tasks but only 15-32% on complex workflows -- indicates fundamental architectural limitations in memory management, hierarchical planning, and state coordination rather than incremental capability gaps addressable through better training or prompting. UI-CUBE functions as an enterprise-readiness diagnostic, revealing that while current CUAs can manipulate individual interface elements, they cannot yet function as reliable workflow automation tools. These findings provide architectural insights essential for developing production-ready CUAs capable of managing complex, multi-step enterprise processes.
- Abstract(参考訳): 現在のComputer Use Agent(CUA)ベンチマークはタスク完了を効果的に測定するが、エンタープライズデプロイメントの準備能力の限定的な評価を提供し、運用システムに必要な運用信頼性よりも機能的正確性を強調している。
UI-CUBE(UiPath Computer Use BEnchmark)は,現在のCUAの基本的アーキテクチャ的制約を明らかにするために設計された2つの難易度階層にわたる226のタスクからなる,系統的なベンチマークである。
評価では、シンプルなUIインタラクション(136タスク)と、コピー・ペーストタスク(50タスク)やエンタープライズアプリケーションシナリオ(40タスク)を含む複雑なワークフローを網羅し、システマティックなインターフェースのバリエーションカバレッジ、マルチレゾリューションテスト、アプリケーション状態によるタスク成功の自動検証について検討した。
5つの最先端モデルの評価は、段階的な性能劣化よりも、急激な能力低下を示す。
単純なUIインタラクションは67~85%の成功率(人間のパフォーマンスは97.9%)を達成するが、複雑なワークフローは9~19%に減少する。
事前のアプリケーション経験のない人間評価者は、単純なタスクでほぼ完璧なパフォーマンスを保ちながら、複雑なタスクで61.2%しか達成していない。
この不連続なパフォーマンスパターンは、エージェントが単純なタスクで68~87%の人間のパフォーマンスを達成するが、複雑なワークフローでは15~32%しか達成しない。
UI-CUBEはエンタープライズ対応診断として機能し、現在のCUAは個々のインターフェース要素を操作できるが、信頼性の高いワークフロー自動化ツールとしてはまだ機能しないことを明らかにした。
これらの知見は、複雑な多段階のエンタープライズプロセスを管理することができる生産対応CUAの開発に欠かせないアーキテクチャ上の洞察を提供する。
関連論文リスト
- OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - CLEA: Closed-Loop Embodied Agent for Enhancing Task Execution in Dynamic Environments [39.5949489828609]
大規模言語モデル(LLM)は、意味論的推論を通じて複雑なタスクを階層的に分解する際、顕著な能力を示す。
クローズドループ・エンボダイド・エージェント (CLEA) は,クローズドループタスク管理のための機能的デカップリングを備えた,4つの特別なオープンソース LLM を組み込んだ新しいアーキテクチャである。
我々は、物体探索、操作、探索操作統合タスクのための2つの異種ロボットを用いて、操作可能な物体を実環境で実験する。
論文 参考訳(メタデータ) (2025-03-02T04:50:59Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - The Foundations of Computational Management: A Systematic Approach to
Task Automation for the Integration of Artificial Intelligence into Existing
Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。
この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文 参考訳(メタデータ) (2024-02-07T01:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。