論文の概要: GUITestScape: Towards Open-set Evaluation on Exploratory GUI Testing
- arxiv url: http://arxiv.org/abs/2605.29532v1
- Date: Thu, 28 May 2026 07:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.032233
- Title: GUITestScape: Towards Open-set Evaluation on Exploratory GUI Testing
- Title(参考訳): GUITestScape: 探索的GUIテストのオープンセット評価を目指す
- Authors: Xiaoyi Chen, Yifei Gao, Yang Xu, Xingxing Song, Yi Zhang, Jitao Sang,
- Abstract要約: 実世界の61のAndroidアプリケーションと,インタラクションとディスプレイタイプにまたがる508のプリセット欠陥をカバーする対話型ベンチマークを提案する。
GUIJudgeはエージェントのテスト軌道を独立して診断可能な機能に分解するオープンセット評価器である。
- 参考スコア(独自算出の注目度): 23.562168946315804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploratory GUI testing is a particularly demanding setting for MLLM agents: without predefined test scripts, an agent must autonomously navigate an application and discover defects through its own interaction. However, current evaluation falls short on two fronts. First, existing benchmarks focus almost exclusively on interaction defects, leaving display defects outside the evaluation frame. Second, evaluation protocols are bound to predefined defect annotations, collapsing the testing process into a single end-state judgment that conflates qualitatively distinct failure modes. To address these challenges, we present GUITestScape, an interactive benchmark covering 61 real-world Android applications and 508 preset defects spanning interaction and display types, and introduce GUIJudge, an open-set evaluator that decomposes an agent's testing trajectory into independently diagnosable capabilities. Experimental results demonstrate that GUIJudge achieves reliable process-aware evaluation beyond predefined annotations, substantially outperforming all baselines. Benchmarking on GUITestScape further reveals that detection remains the critical bottleneck for existing models across both defect types, and that integrating GUIJudge's verifiers into existing agents significantly boosts their detection performance without retraining.
- Abstract(参考訳): 事前に定義されたテストスクリプトがなければ、エージェントはアプリケーションを自律的にナビゲートし、独自のインタラクションを通じて欠陥を発見する必要があります。
しかし、現在の評価は2つの面で不足している。
まず、既存のベンチマークは、ほとんどインタラクションの欠陥に集中しており、ディスプレイの欠陥は評価フレームの外にあります。
第二に、評価プロトコルは事前に定義された欠陥アノテーションに縛られ、テストプロセスを質的に異なる障害モードを混同した単一のエンドステート判断に分解する。
これらの課題に対処するため、実世界の61のAndroidアプリケーションと508のプリセット障害をカバーする対話型ベンチマークであるGUITestScapeを紹介し、エージェントのテスト軌道を独立して診断可能な機能に分解するオープンセット評価器であるGUIJudgeを紹介した。
実験の結果,GUIJudgeは定義済みのアノテーション以上の信頼性の高いプロセス認識評価を達成し,すべてのベースラインを大幅に上回ることがわかった。
GUITestScapeのベンチマークでは、両方の欠陥タイプにまたがる既存のモデルにおいて、検出が依然として重要なボトルネックであり、GUIJudgeの検証を既存のエージェントに統合することで、再トレーニングなしに検出パフォーマンスが大幅に向上することが明らかになった。
関連論文リスト
- DiagEval: Trajectory-Conditioned Diagnosis for Reliable Software Evaluation with GUI Agents [16.577116170272934]
本稿では,対話型ソフトウェアのGUIエージェント評価のための軌道条件付き診断評価プロトコルであるDiagEvalを提案する。
DiagEvalは失敗した軌道を再利用して、対象の診断プローブを選択し、その結果を内部の属性信号に集約する。
WebDevJudge-UnitとRealDevBenchのDiagEvalを複数のGUIエージェント評価器とLCMバックボーンで評価する。
論文 参考訳(メタデータ) (2026-05-17T13:22:22Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation [72.01173512175531]
KnowU-Benchはパーソナライズされたモバイルエージェントのためのオンラインベンチマークである。
42のGUIタスク、86のパーソナライズされたタスク、64のプロアクティブタスクをカバーしている。
明示的なタスク実行に優れるエージェントは、あいまいな指示の下で50%以下に低下する。
論文 参考訳(メタデータ) (2026-04-09T16:50:50Z) - Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts [49.99400612296149]
強力な視覚的理解なしに、モデルが多くのベンチマークを達成できることがわかりました。
これは視覚的な入力を意図した視覚中心のベンチマークでは特に問題となる。
ベンチマーク設計には診断原則を採用しており、もしベンチマークをゲーム化できれば、それをゲーム化します。
論文 参考訳(メタデータ) (2025-11-06T18:43:21Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Reactive Bottom-Up Testing [15.280664862119565]
リアクティブボトムアップテスト(Reactive Bottom-Up Testing)と呼ばれる新しいパラダイムを導入します。
私たちの洞察では、機能レベルのテストは必要だが、機能内の脆弱性の検証には不十分である。
本研究では,潜在的な機能を特定し,型とコンテキストを意識したハーネスを生成する3段階のボトムアップテスト手法を開発した。
論文 参考訳(メタデータ) (2025-09-03T20:54:43Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - What You See Is What You Get: Attention-based Self-guided Automatic Unit Test Generation [3.8244417073114003]
本稿では,AUGER(Attention-based Self-guided Automatic Unit Test GenERation)アプローチを提案する。
AUGERには欠陥検出とエラートリガーという2つのステージがある。
F1スコアと欠陥検出精度で4.7%から35.3%向上した。
ユニットテスト生成において、最先端(SOTA)アプローチよりも23から84のエラーを発生させることができる。
論文 参考訳(メタデータ) (2024-12-01T14:28:48Z) - Gamified GUI testing with Selenium in the IntelliJ IDE: A Prototype Plugin [0.559239450391449]
本稿では,IntelliJ IDEA用のガミフィケーションプラグインのプロトタイプであるGIPGUTについて述べる。
このプラグインは、達成、報酬、プロファイルのカスタマイズを通じて、単調で退屈なタスクにテスタのエンゲージメントを高める。
その結果,ゲーミフィケーション要素の高利用性と肯定的な受容性が示唆された。
論文 参考訳(メタデータ) (2024-03-14T20:11:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。