論文の概要: WebTestBench: Evaluating Computer-Use Agents towards End-to-End Automated Web Testing
- arxiv url: http://arxiv.org/abs/2603.25226v1
- Date: Thu, 26 Mar 2026 09:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.213984
- Title: WebTestBench: Evaluating Computer-Use Agents towards End-to-End Automated Web Testing
- Title(参考訳): WebTestBench: エンド・ツー・エンドのWebテストに向けたコンピュータ・ユース・エージェントの評価
- Authors: Fanheng Kong, Jingyuan Zhang, Yang Yue, Chenxi Sun, Yang Tian, Shi Feng, Xiaocui Yang, Daling Wang, Yu Tian, Jun Du, Wenchong Zeng, Han Li, Kun Gai,
- Abstract要約: エンドツーエンドの自動Webテストを評価するベンチマークであるWebTestBenchを紹介します。
テストプロセスを2つのカスケードサブタスク、チェックリストの生成と欠陥検出に分解し、WebTesterを提案する。
以上の結果から,現在のコンピュータ利用エージェント能力と産業レベルの展開要求との間に大きなギャップがあることが判明した。
- 参考スコア(独自算出の注目度): 57.7131457251794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of Large Language Models (LLMs) has catalyzed a paradigm shift in programming, giving rise to "vibe coding", where users can build complete projects and even control computers using natural language instructions. This paradigm has driven automated webpage development, but it introduces a new requirement about how to automatically verify whether the web functionalities are reliably implemented. Existing works struggle to adapt, relying on static visual similarity or predefined checklists that constrain their utility in open-ended environments. Furthermore, they overlook a vital aspect of software quality, namely latent logical constraints. To address these gaps, we introduce WebTestBench, a benchmark for evaluating end-to-end automated web testing. WebTestBench encompasses comprehensive dimensions across diverse web application categories. We decompose the testing process into two cascaded sub-tasks, checklist generation and defect detection, and propose WebTester, a baseline framework for this task. Evaluating popular LLMs with WebTester reveals severe challenges, including insufficient test completeness, detection bottlenecks, and long-horizon interaction unreliability. These findings expose a substantial gap between current computer-use agent capabilities and industrial-grade deployment demands. We hope that WebTestBench provides valuable insights and guidance for advancing end-to-end automated web testing. Our dataset and code are available at https://github.com/friedrichor/WebTestBench.
- Abstract(参考訳): LLM(Large Language Models)の出現はプログラミングのパラダイムシフトを引き起こし、ユーザーが完全なプロジェクトを構築し、自然言語命令を使ってコンピュータを制御できる「バイブコーディング」を生み出した。
このパラダイムは、自動Webページ開発を駆動するが、Web機能が確実に実装されているかどうかを自動的に検証する方法に関する新しい要件を導入する。
既存の作業は、静的な視覚的類似性や、オープンな環境において彼らのユーティリティを制約する事前定義されたチェックリストに依存して、適応に苦労する。
さらに、彼らはソフトウェア品質の重要な側面、すなわち遅れた論理的制約を見落としています。
これらのギャップに対処するため、エンドツーエンドの自動Webテストを評価するベンチマークであるWebTestBenchを紹介します。
WebTestBenchは、様々なWebアプリケーションカテゴリにわたる包括的なディメンションを含んでいる。
テストプロセスを2つのケース化されたサブタスク、チェックリストの生成と欠陥検出に分解し、このタスクのベースラインフレームワークであるWebTesterを提案する。
WebTesterで人気のあるLLMを評価すると、テストの完全性不足、検出ボトルネック、長時間水平相互作用の信頼性の欠如など、深刻な課題が明らかになる。
これらの結果は、現在のコンピュータ利用エージェント能力と産業レベルの展開要求との間に大きなギャップがあることを示唆している。
WebTestBenchは、エンドツーエンドの自動化Webテストを進める上で、貴重な洞察とガイダンスを提供することを期待しています。
私たちのデータセットとコードはhttps://github.com/friedrichor/WebTestBench.orgから入手可能です。
関連論文リスト
- Finetuning LLMs for Automatic Form Interaction on Web-Browser in Selenium Testing Framework [4.53273595732354]
本稿では,セレンで高品質なテストケースを生成するために,大規模言語モデル(LLM)を訓練するための新しい手法を提案する。
我々は、さまざまな現実世界のフォームやテストシナリオをカバーし、トレーニングと評価のために、合成データセットと人間アノテーションデータセットの両方をキュレートする。
提案手法は, GPT-4o など,すべての評価指標において, 高いベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-11-19T06:43:21Z) - AUTO-Explorer: Automated Data Collection for GUI Agent [58.58097564914626]
本稿では,アノテーションコストを最小限に抑えた自動データ収集手法であるAuto-Explorerを提案する。
それは、GUI環境を自律的に解析し探索する、シンプルだが効果的な探索メカニズムを組み込んでいる。
収集したデータを用いて,マルチモーダル大規模言語モデル(MLLM)を微調整し,GUI要素基盤テストセットを確立する。
論文 参考訳(メタデータ) (2025-11-09T15:13:45Z) - AI Agents for Web Testing: A Case Study in the Wild [20.669140680308494]
本稿では,AIエージェントベースのWebテスティングフレームワークであるWebProberを紹介する。
URLを与えられたWebProberは、Webサイトを自律的に探索し、実際のユーザインタラクションをシミュレートし、バグとユーザビリティの問題を特定し、人間が読めるレポートを生成する。
120の学術的個人Webサイトのケーススタディを通じてWebProberを評価し,29のユーザビリティ問題を明らかにした。
論文 参考訳(メタデータ) (2025-09-05T15:57:16Z) - Automated Web Application Testing: End-to-End Test Case Generation with Large Language Models and Screen Transition Graphs [0.5965410190046627]
本稿では,Webアプリケーションの2つの重要な側面であるサイトナビゲーションとフォームフィリングのためのテストケース自動生成システムを提案する。
サイトナビゲーションでは、画面遷移グラフとLCMを使用してナビゲーションフローをモデル化し、テストシナリオを生成する。
フォームフィリングにはステートグラフを使用して条件付きフォームを処理し、Seleniumスクリプト生成を自動化する。
論文 参考訳(メタデータ) (2025-06-03T07:08:21Z) - TESTQUEST: A Web Gamification Tool to Improve Locators and Page Objects Quality [2.156170153103442]
TestQUESTは、ロケータとページオブジェクトに適用することで、テストの堅牢性を改善するために設計されたツールである。
ロケータは、迅速なソフトウェア進化によるWebページ構造の頻繁な変化に非常に敏感です。
論文 参考訳(メタデータ) (2025-05-30T16:18:10Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。