論文の概要: ProBench: Benchmarking GUI Agents with Accurate Process Information
- arxiv url: http://arxiv.org/abs/2511.09157v1
- Date: Thu, 13 Nov 2025 01:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.438176
- Title: ProBench: Benchmarking GUI Agents with Accurate Process Information
- Title(参考訳): ProBench: 正確なプロセス情報を備えたGUIエージェントのベンチマーク
- Authors: Leyang Yang, Ziwei Wang, Xiaoxuan Tang, Sheng Zhou, Dajun Chen, Wei Jiang, Yong Li,
- Abstract要約: ProBenchは、広く使われているシナリオをカバーする200以上のGUIタスクからなる包括的なベンチマークである。
データセットをプロセス関連タスクに拡張し、特殊な評価手法を設計する。
先進的なGUIエージェントを評価した結果,現実のGUIシナリオには大きな制限があることがわかった。
- 参考スコア(独自算出の注目度): 15.519853892615272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the deep integration of artificial intelligence and interactive technology, Graphical User Interface (GUI) Agent, as the carrier connecting goal-oriented natural language and real-world devices, has received widespread attention from the community. Contemporary benchmarks aim to evaluate the comprehensive capabilities of GUI agents in GUI operation tasks, generally determining task completion solely by inspecting the final screen state. However, GUI operation tasks consist of multiple chained steps while not all critical information is presented in the final few pages. Although a few research has begun to incorporate intermediate steps into evaluation, accurately and automatically capturing this process information still remains an open challenge. To address this weakness, we introduce ProBench, a comprehensive mobile benchmark with over 200 challenging GUI tasks covering widely-used scenarios. Remaining the traditional State-related Task evaluation, we extend our dataset to include Process-related Task and design a specialized evaluation method. A newly introduced Process Provider automatically supplies accurate process information, enabling presice assessment of agent's performance. Our evaluation of advanced GUI agents reveals significant limitations for real-world GUI scenarios. These shortcomings are prevalent across diverse models, including both large-scale generalist models and smaller, GUI-specific models. A detailed error analysis further exposes several universal problems, outlining concrete directions for future improvements.
- Abstract(参考訳): 人工知能とインタラクティブテクノロジーの深い統合により、目標指向の自然言語と現実世界のデバイスを接続するキャリアであるグラフィカルユーザインタフェース(GUI)エージェントは、コミュニティから広く注目を集めている。
現代のベンチマークはGUI操作タスクにおけるGUIエージェントの包括的な機能を評価することを目的としており、一般に最終画面状態の検査のみでタスク完了を決定する。
しかし、GUI操作タスクは複数の連鎖したステップで構成されており、最後の数ページですべての重要な情報が提示されるわけではない。
中間段階を評価に組み入れ始めた研究はいくつかあるが、このプロセス情報を正確かつ自動的に取得することは依然として未解決の課題である。
この弱点に対処するために,広く使用されているシナリオをカバーする200以上のGUIタスクを備えた,総合的なモバイルベンチマークであるProBenchを紹介した。
従来の状態関連タスク評価を維持しながら、プロセス関連タスクを含むようにデータセットを拡張し、特殊な評価手法を設計する。
新しく導入されたプロセスプロバイダは、エージェントのパフォーマンスの精密な評価を可能にする、正確なプロセス情報を自動的に供給する。
先進的なGUIエージェントを評価した結果,現実のGUIシナリオには大きな制限があることがわかった。
これらの欠点は、大規模なジェネラリストモデルとより小さなGUI固有のモデルの両方を含む、多様なモデルにまたがっている。
詳細なエラー解析は、さらにいくつかの普遍的な問題を明らかにし、将来の改善に向けた具体的な方向性を概説する。
関連論文リスト
- MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。
GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文 参考訳(メタデータ) (2025-07-25T17:59:26Z) - GUI-Robust: A Comprehensive Dataset for Testing GUI Agent Robustness in Real-World Anomalies [34.63675989928621]
本稿ではGUIエージェント評価のための新しいデータセットであるGUI-Robustを紹介する。
また、RPAツールを介して自然なインタラクションからユーザアクションシーケンスを収集する半自動データセット構築パラダイムを提案する。
このパラダイムは、アノテーションの時間コストを19倍以上削減します。
GUI-Robustデータセットを用いて最先端のGUIエージェントを評価し,異常なシナリオにおける性能劣化を明らかにした。
論文 参考訳(メタデータ) (2025-06-17T12:50:35Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - A Survey on (M)LLM-Based GUI Agents [62.57899977018417]
グラフィカルユーザインタフェース (GUI) エージェントは、人間とコンピュータのインタラクションにおいて、トランスフォーメーションパラダイムとして登場した。
大規模言語モデルとマルチモーダル学習の最近の進歩は、デスクトップ、モバイル、Webプラットフォーム全体でGUI自動化に革命をもたらした。
本調査では, 正確な要素位置決定, 効果的な知識検索, 長期計画, 安全に配慮した実行制御など, 重要な技術的課題を明らかにする。
論文 参考訳(メタデータ) (2025-03-27T17:58:31Z) - GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。
テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。
実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-24T13:41:47Z) - Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。
また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。
UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-15T22:17:30Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。