論文の概要: GUITester: Enabling GUI Agents for Exploratory Defect Discovery
- arxiv url: http://arxiv.org/abs/2601.04500v1
- Date: Thu, 08 Jan 2026 02:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.982313
- Title: GUITester: Enabling GUI Agents for Exploratory Defect Discovery
- Title(参考訳): GUITester: 探索的欠陥発見のためのGUIエージェントの実装
- Authors: Yifei Gao, Jiang Wu, Xiaoyi Chen, Yifan Yang, Zhe Cui, Tianyi Ma, Jiaming Zhang, Jitao Sang,
- Abstract要約: GUIテストはソフトウェアの品質には不可欠だが、手作業のコストが高い。
2つのモジュールによる検証からナビゲーションを分離するフレームワークである textbfGUITester を提案する。
GuiTesterはGUITestBench上で48.90%(Pass@3)のF1スコアを達成した。
- 参考スコア(独自算出の注目度): 39.85961397079116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploratory GUI testing is essential for software quality but suffers from high manual costs. While Multi-modal Large Language Model (MLLM) agents excel in navigation, they fail to autonomously discover defects due to two core challenges: \textit{Goal-Oriented Masking}, where agents prioritize task completion over reporting anomalies, and \textit{Execution-Bias Attribution}, where system defects are misidentified as agent errors. To address these, we first introduce \textbf{GUITestBench}, the first interactive benchmark for this task, featuring 143 tasks across 26 defects. We then propose \textbf{GUITester}, a multi-agent framework that decouples navigation from verification via two modules: (i) a \textit{Planning-Execution Module (PEM)} that proactively probes for defects via embedded testing intents, and (ii) a \textit{Hierarchical Reflection Module (HRM)} that resolves attribution ambiguity through interaction history analysis. GUITester achieves an F1-score of 48.90\% (Pass@3) on GUITestBench, outperforming state-of-the-art baselines (33.35\%). Our work demonstrates the feasibility of autonomous exploratory testing and provides a robust foundation for future GUI quality assurance~\footnote{Our code is now available in~\href{https://github.com/ADaM-BJTU/GUITestBench}{https://github.com/ADaM-BJTU/GUITestBench}}.
- Abstract(参考訳): 探索的なGUIテストはソフトウェアの品質には不可欠だが、手作業のコストが高い。
マルチモーダル大規模言語モデル(MLLM)エージェントはナビゲーションにおいて優れているが、エージェントが異常報告よりもタスク完了を優先する \textit{Goal-Oriented Masking} と、システム欠陥をエージェントエラーと誤識別する \textit{Execution-Bias Attribution} という2つのコア課題により、自動で欠陥を発見することができない。
このタスクの最初のインタラクティブなベンチマークである \textbf{GUITestBench} を導入し、26の欠陥に143のタスクを割り当てた。
次に、2つのモジュールを通じてナビゲーションを検証から分離するマルチエージェントフレームワークである‘textbf{GUITester}’を提案する。
i)組み込みテストインテントを介して欠陥を積極的に調査する \textit{Planning-Execution Module (PEM)
(ii)相互作用履歴解析により帰属曖昧性を解消する「textit{Hierarchical Reflection Module (HRM) 」。
GUITesterは、GUITestBench上で48.90\%(Pass@3)のF1スコアを達成し、最先端のベースライン(33.35\%)を上回っている。
私たちの研究は、自律的な探索テストの実現可能性を示し、将来のGUI品質保証~\footnote{Ourコードは、~\href{https://github.com/ADaM-BJTU/GUITestBench}{https://github.com/ADaM-BJTU/GUITestBench}}で利用可能です。
関連論文リスト
- DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts [49.99400612296149]
強力な視覚的理解なしに、モデルが多くのベンチマークを達成できることがわかりました。
これは視覚的な入力を意図した視覚中心のベンチマークでは特に問題となる。
ベンチマーク設計には診断原則を採用しており、もしベンチマークをゲーム化できれば、それをゲーム化します。
論文 参考訳(メタデータ) (2025-11-06T18:43:21Z) - GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文 参考訳(メタデータ) (2025-11-06T12:19:02Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents [0.0]
OSUniverseは、高度なGUIナビゲーションAIエージェントのための複雑なマルチモーダルデスクトップ指向タスクのベンチマークである。
タスクを、基本的な精度のクリックからマルチステップ、ディクスタリティ、精度、エージェントからの明確な思考といった複雑さのレベルに分割する。
ベンチマークは手動で評価できるが、平均エラー率2%未満の自動検証機構も導入する。
論文 参考訳(メタデータ) (2025-05-06T14:29:47Z) - InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection [38.833925781308665]
MLLMベースのGUIエージェントである textitInfiGUIAgent を2段階の教師付き微調整パイプラインでトレーニングした。
ステージ1はGUIの理解や接地といった基本的なスキルを強化し、ステージ2は階層的推論と予測反射推論のスキルを統合する。
textitInfiGUIAgentは、いくつかのGUIベンチマークで競合するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-08T15:45:21Z) - GUI Testing Arena: A Unified Benchmark for Advancing Autonomous GUI Testing Agent [24.97846085313314]
自動GUIテストのプロセス全体を評価するための,形式化された総合的な環境を提案する。
テストプロセスは、テスト意図の生成、テストタスクの実行、GUI欠陥検出という、3つの重要なサブタスクに分割します。
実際のモバイルアプリケーション、人工的に注入された欠陥を持つモバイルアプリケーション、合成データという3つのデータタイプを使用して、異なるモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-24T13:41:47Z) - Seeing is Believing: Vision-driven Non-crash Functional Bug Detection for Mobile Apps [26.96558418166514]
本稿では,非クラッシュな機能的バグを検出するための,視覚駆動型多エージェント協調GUIテスト手法を提案する。
590の非クラッシュバグに対してTridentを評価し,12のベースラインと比較したところ,平均リコールと精度が14%-112%,108%-147%向上した。
論文 参考訳(メタデータ) (2024-07-03T11:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。