論文の概要: "Are We Done Yet?": A Vision-Based Judge for Autonomous Task Completion of Computer Use Agents
- arxiv url: http://arxiv.org/abs/2511.20067v1
- Date: Tue, 25 Nov 2025 08:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.362699
- Title: "Are We Done Yet?": A Vision-Based Judge for Autonomous Task Completion of Computer Use Agents
- Title(参考訳): 「まだか?」:コンピュータ利用エージェントの自律的タスク完了のための視覚的判断
- Authors: Marta Sumyk, Oleksandr Kosovan,
- Abstract要約: 本稿では、視覚言語モデルを用いて、スクリーンショットやタスク記述から直接タスク完了を評価する自律的な評価・フィードバックフレームワークを提案する。
本フレームワークは,タスク成功検出において最大73%の精度を実現し,評価者フィードバックを適用した場合のタスク成功率の平均相対的改善率は27%である。
- 参考スコア(独自算出の注目度): 15.119045051735633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer Use Agents (CUAs) are designed to autonomously operate digital interfaces, yet they often fail to reliably determine whether a given task has been completed. We present an autonomous evaluation and feedback framework that uses vision-language models to assess task completion directly from screenshots and task descriptions. Our dataset covers 42 built-in macOS applications and 1,260 human-labeled tasks across a wide range of scenarios. Our framework achieves up to 73 percent accuracy in task success detection and yields an average relative improvement of 27 percent in overall task success when evaluator feedback is applied. These results show that vision-based evaluation can serve as an effective feedback mechanism that improves the reliability and self-correction of autonomous computer-use agents.
- Abstract(参考訳): コンピュータ利用エージェント(CUA)は、自律的にデジタルインターフェースを操作するように設計されているが、与えられたタスクが完了したかどうかを確実に判断することができないことが多い。
本稿では、視覚言語モデルを用いて、スクリーンショットやタスク記述から直接タスク完了を評価する自律的な評価・フィードバックフレームワークを提案する。
私たちのデータセットは、組み込みのmacOSアプリケーション42と、幅広いシナリオにわたる1,260のヒューマンラベルタスクをカバーしています。
本フレームワークは,タスク成功検出において最大73%の精度を実現し,評価者フィードバックを適用した場合のタスク成功率の平均相対的改善率は27%である。
これらの結果から,自律型コンピュータ利用エージェントの信頼性と自己補正を改善する効果的なフィードバック機構として,視覚に基づく評価が有効であることが示唆された。
関連論文リスト
- Exploring Autonomous Agents: A Closer Look at Why They Fail When Completing Tasks [8.218266805768687]
我々は、自律エージェントを厳格に評価するために設計された34のプログラム可能なタスクのベンチマークを示す。
LLMバックボーンと組み合わせた3つの人気のあるオープンソースエージェントフレームワークを評価し,タスク完了率約50%を観察した。
我々は,障害の原因を3段階に分類し,計画上のエラー,タスク実行の問題,誤った応答生成を強調する。
論文 参考訳(メタデータ) (2025-08-18T17:55:22Z) - Evaluating Uncertainty and Quality of Visual Language Action-enabled Robots [13.26825865228582]
ロボット操作タスクのためのVLAモデルに特化して設計された8つの不確実性指標と5つの品質指標を提案する。
我々は,3つの最先端VLAモデルから908のタスク実行を成功させる大規模実証実験により,その有効性を評価する。
論文 参考訳(メタデータ) (2025-07-22T22:15:59Z) - AutoEval: A Practical Framework for Autonomous Evaluation of Mobile Agents [5.995751996623217]
モバイルエージェントを手作業なしでテストする評価フレームワークであるAutoEvalを提案する。
提案手法では,タスク報酬信号の自動生成に使用可能なUI状態変化表現を設計する。
我々はまた、我々のフレームワークを使って最先端のモバイルエージェントを評価し、その性能と限界について洞察を提供する。
論文 参考訳(メタデータ) (2025-03-04T08:44:30Z) - 360$^\circ$REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System [71.96888731208838]
評価フィードバックからの経験を総合的に評価し蓄積することは、システム性能を改善するための効果的なアプローチである、と我々は主張する。
企業組織の実践にインスパイアされた階層的なマルチエージェントフレームワークである360$circ$REA(360$circ$REA)による再利用可能なエクスペリエンス蓄積を提案する。
論文 参考訳(メタデータ) (2024-04-08T14:43:13Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - Automated system to measure Tandem Gait to assess executive functions in
children [0.0]
本研究は,子どもの歩行運動の分析による運動機能評価に焦点をあてる。
我々は,学校や家庭環境において採用しやすいカメラのみを必要とするコンピュータビジョンに基づくアセスメントシステムを開発した。
その結果、76.61%の分類精度を達成し、子どものパフォーマンス評価を自動化するための提案作業の有効性を強調した。
論文 参考訳(メタデータ) (2020-12-15T23:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。