Fugu-MT 論文翻訳(概要): GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent

論文の概要: GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent

arxiv url: http://arxiv.org/abs/2412.18426v1
Date: Tue, 24 Dec 2024 13:41:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 19:23:17.787935
Title: GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent
Title（参考訳）: GUIテストアリーナ: 自律的なGUIテストエージェントを改善するための統一ベンチマーク
Authors: Kangjia Zhao, Jiahui Song, Leigang Sha, Haozhan Shen, Zhi Chen, Tiancheng Zhao, Xiubo Liang, Jianwei Yin,
Abstract要約: 自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
参考スコア（独自算出の注目度）: 24.97846085313314
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Nowadays, research on GUI agents is a hot topic in the AI community. However, current research focuses on GUI task automation, limiting the scope of applications in various GUI scenarios. In this paper, we propose a formalized and comprehensive environment to evaluate the entire process of automated GUI Testing (GTArena), offering a fair, standardized environment for consistent operation of diverse multimodal large language models. We divide the testing process into three key subtasks: test intention generation, test task execution, and GUI defect detection, and construct a benchmark dataset based on these to conduct a comprehensive evaluation. It evaluates the performance of different models using three data types: real mobile applications, mobile applications with artificially injected defects, and synthetic data, thoroughly assessing their capabilities in this relevant task. Additionally, we propose a method that helps researchers explore the correlation between the performance of multimodal language large models in specific scenarios and their general capabilities in standard benchmark tests. Experimental results indicate that even the most advanced models struggle to perform well across all sub-tasks of automated GUI Testing, highlighting a significant gap between the current capabilities of Autonomous GUI Testing and its practical, real-world applicability. This gap provides guidance for the future direction of GUI Agent development. Our code is available at https://github.com/ZJU-ACES-ISE/ChatUITest.
Abstract（参考訳）: 現在、GUIエージェントの研究はAIコミュニティでホットなトピックとなっている。しかし、現在の研究はGUIタスクの自動化に焦点を当てており、様々なGUIシナリオにおけるアプリケーションのスコープを制限している。本稿では,GUI自動テスト(GTArena)のプロセス全体を評価するための形式化された総合的な環境を提案する。テストプロセスは、テスト意図生成、テストタスク実行、GUI欠陥検出の3つの重要なサブタスクに分割し、これらに基づいてベンチマークデータセットを構築し、包括的な評価を行う。実際のモバイルアプリケーション、人工的に注入された欠陥のあるモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルのパフォーマンスを評価し、この関連するタスクにおけるそれらの機能を完全に評価する。さらに,特定のシナリオにおけるマルチモーダル言語大規模モデルの性能と,標準ベンチマークテストにおけるそれらの一般的な機能との相関関係について検討する手法を提案する。実験結果から、最も先進的なモデルでさえ、自動GUIテストのすべてのサブタスクでうまく機能するのに苦労していることが示され、現在の自律GUIテストの能力と実用的で現実的な適用性との間に大きなギャップが浮かび上がっている。このギャップは、GUI Agent開発の将来的な方向性のガイダンスを提供する。私たちのコードはhttps://github.com/ZJU-ACES-ISE/ChatUITestで利用可能です。

関連論文リスト

ProBench: Benchmarking GUI Agents with Accurate Process Information [15.519853892615272]
ProBenchは、広く使われているシナリオをカバーする200以上のGUIタスクからなる包括的なベンチマークである。データセットをプロセス関連タスクに拡張し、特殊な評価手法を設計する。先進的なGUIエージェントを評価した結果,現実のGUIシナリオには大きな制限があることがわかった。
論文参考訳（メタデータ） (2025-11-12T09:49:31Z)
AUTO-Explorer: Automated Data Collection for GUI Agent [58.58097564914626]
本稿では,アノテーションコストを最小限に抑えた自動データ収集手法であるAuto-Explorerを提案する。それは、GUI環境を自律的に解析し探索する、シンプルだが効果的な探索メカニズムを組み込んでいる。収集したデータを用いて,マルチモーダル大規模言語モデル(MLLM)を微調整し,GUI要素基盤テストセットを確立する。
論文参考訳（メタデータ） (2025-11-09T15:13:45Z)
GTA1: GUI Test-time Scaling Agent [77.60727242084971]
本稿ではGUIテストタイムスケーリングエージェントGTA1の2つの課題について検討する。まず、最も適切なアクション提案を選択するために、テスト時間スケーリング手法を提案する。第2に、選択したアクション提案を対応する視覚要素にグラウンドする際の精度の向上を実現するモデルを提案する。
論文参考訳（メタデータ） (2025-07-08T08:52:18Z)
MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。 GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文参考訳（メタデータ） (2025-07-08T07:07:53Z)
GUI-Robust: A Comprehensive Dataset for Testing GUI Agent Robustness in Real-World Anomalies [34.63675989928621]
本稿ではGUIエージェント評価のための新しいデータセットであるGUI-Robustを紹介する。また、RPAツールを介して自然なインタラクションからユーザアクションシーケンスを収集する半自動データセット構築パラダイムを提案する。このパラダイムは、アノテーションの時間コストを19倍以上削減します。 GUI-Robustデータセットを用いて最先端のGUIエージェントを評価し,異常なシナリオにおける性能劣化を明らかにした。
論文参考訳（メタデータ） (2025-06-17T12:50:35Z)
LLM-Guided Scenario-based GUI Testing [25.180945629233786]
ScenGenは、新しいLLM誘導シナリオベースのGUIテストアプローチで、5つのエージェントを含んでいる。 Observerは、GUIウィジェットを抽出し、GUIレイアウトを形成することで、アプリのGUI状態を認識する。次に、Executorはアプリの要求された操作を実行する。
論文参考訳（メタデータ） (2025-06-05T14:27:40Z)
Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文参考訳（メタデータ） (2025-06-05T04:12:36Z)
AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。 AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-02T07:30:29Z)
TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials [70.06743063375121]
リッチなマルチモーダルWebチュートリアルから学習し,汎用GUIエージェントを構築するTongUIフレームワークを提案する。我々は、5つのオペレーティングシステムと200以上のアプリケーションにまたがる143Kトラジェクトリデータを含むGUI-Netデータセットを作成する。我々はGUI-Net上でQwen2.5-VL-3B/7Bモデルを微調整してTongUIエージェントを開発する。
論文参考訳（メタデータ） (2025-04-17T06:15:56Z)
WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation [20.11855701656702]
We present WorldGUI, a novel GUI benchmark that design GUI task with various initial state tosimulated real computer-user interaction。また,GUIインタラクションの予測不能性と複雑性を効果的に管理する総合的なフレームワークであるGUI-Thinkerを提案する。
論文参考訳（メタデータ） (2025-02-12T01:06:10Z)
GUI-Bee: Align GUI Action Grounding to Novel Environments via Autonomous Exploration [56.58744345634623]
MLLMをベースとした自律エージェントGUI-Beeを提案する。 NovelScreenSpotも導入しています。これはGUIアクショングラウンドモデルと新しい環境との整合性をテストするためのベンチマークです。
論文参考訳（メタデータ） (2025-01-23T18:16:21Z)
UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。 OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文参考訳（メタデータ） (2025-01-21T17:48:10Z)
GUI Agents: A Survey [129.94551809688377]
グラフィカルユーザインタフェース(GUI)エージェントは、人間とコンピュータのインタラクションを自動化するためのトランスフォーメーションアプローチとして登場した。 GUIエージェントの関心の高まりと基本的な重要性により、ベンチマーク、評価指標、アーキテクチャ、トレーニングメソッドを分類する総合的な調査を提供する。
論文参考訳（メタデータ） (2024-12-18T04:48:28Z)
Zero-Shot Prompting Approaches for LLM-based Graphical User Interface Generation [53.1000575179389]
LLMに基づくGUI検索とフィルタリング機構を統合した検索型GUI生成(RAGG)手法を提案する。また,GUI 生成に Prompt Decomposition (PDGG) と Self-Critique (SCGG) を適用した。 UI/UX経験を持つ100人以上の集団作業者の3000以上のGUIアノテーションを対象とし,SPGGはPDGGやRAGGとは対照的に,より効果的なGUI生成につながる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-15T22:17:30Z)
The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。大規模なマルチベンチマークWebエージェント実験を初めて実施する。結果は、OpenAIとAnthropicの最新モデルの大きな相違点を浮き彫りにしている。
論文参考訳（メタデータ） (2024-12-06T23:43:59Z)
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文参考訳（メタデータ） (2024-12-05T18:58:26Z)
AUITestAgent: Automatic Requirements Oriented GUI Function Testing [12.83932274541321]
本稿では,モバイルアプリ用の初の自動自然言語駆動GUIテストツールであるAUITestAgentを紹介する。 GUIインタラクションと機能検証の全プロセスを完全に自動化することができる。カスタマイズされたベンチマークの実験では、AUITestAgentが生成されたGUIインタラクションの品質で既存のツールより優れていることが示されている。
論文参考訳（メタデータ） (2024-07-12T06:14:46Z)
GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。各種GUIコンテンツの理解において,ImageLLMs や VideoLLMs などの最先端MLLMの能力を評価する。
論文参考訳（メタデータ） (2024-06-16T06:56:53Z)
Practical, Automated Scenario-based Mobile App Testing [13.52057950260007]
ヒューマンテスタが開発したテストスクリプトは、テストシナリオに集中してビジネスロジックを検討する。モバイルアプリのGUI集約的な機能のため、ヒューマンテスタは常にアプリケーションのGUIを理解して、シナリオのテストスクリプトを整理します。 ScenTestは、ヒューマンプラクティスを模倣し、ドメイン知識をシナリオベースのモバイルアプリテストに統合することで、自動テストを開始する。
論文参考訳（メタデータ） (2024-06-12T15:48:39Z)
Gamified GUI testing with Selenium in the IntelliJ IDE: A Prototype Plugin [0.559239450391449]
本稿では,IntelliJ IDEA用のガミフィケーションプラグインのプロトタイプであるGIPGUTについて述べる。このプラグインは、達成、報酬、プロファイルのカスタマイズを通じて、単調で退屈なタスクにテスタのエンゲージメントを高める。その結果,ゲーミフィケーション要素の高利用性と肯定的な受容性が示唆された。
論文参考訳（メタデータ） (2024-03-14T20:11:11Z)
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-19T08:29:03Z)
You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-09-20T16:12:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。