論文の概要: AI Agents for Web Testing: A Case Study in the Wild
- arxiv url: http://arxiv.org/abs/2509.05197v1
- Date: Fri, 05 Sep 2025 15:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.639414
- Title: AI Agents for Web Testing: A Case Study in the Wild
- Title(参考訳): AI Agents for Web Testing: 野生におけるケーススタディ
- Authors: Naimeng Ye, Xiao Yu, Ruize Xu, Tianyi Peng, Zhou Yu,
- Abstract要約: 本稿では,AIエージェントベースのWebテスティングフレームワークであるWebProberを紹介する。
URLを与えられたWebProberは、Webサイトを自律的に探索し、実際のユーザインタラクションをシミュレートし、バグとユーザビリティの問題を特定し、人間が読めるレポートを生成する。
120の学術的個人Webサイトのケーススタディを通じてWebProberを評価し,29のユーザビリティ問題を明らかにした。
- 参考スコア(独自算出の注目度): 20.669140680308494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated web testing plays a critical role in ensuring high-quality user experiences and delivering business value. Traditional approaches primarily focus on code coverage and load testing, but often fall short of capturing complex user behaviors, leaving many usability issues undetected. The emergence of large language models (LLM) and AI agents opens new possibilities for web testing by enabling human-like interaction with websites and a general awareness of common usability problems. In this work, we present WebProber, a prototype AI agent-based web testing framework. Given a URL, WebProber autonomously explores the website, simulating real user interactions, identifying bugs and usability issues, and producing a human-readable report. We evaluate WebProber through a case study of 120 academic personal websites, where it uncovered 29 usability issues--many of which were missed by traditional tools. Our findings highlight agent-based testing as a promising direction while outlining directions for developing next-generation, user-centered testing frameworks.
- Abstract(参考訳): 自動化されたWebテストは、高品質なユーザエクスペリエンスを確保し、ビジネス価値を提供する上で重要な役割を担います。
従来のアプローチは主にコードカバレッジと負荷テストに重点を置いていたが、多くの場合、複雑なユーザの振る舞いを捉えることができず、多くのユーザビリティの問題が検出されていないままだった。
大規模言語モデル(LLM)とAIエージェントの出現は、Webサイトとのヒューマンライクなインタラクションを可能にし、一般的なユーザビリティ問題に対する一般的な認識を可能にすることによって、Webテストの新たな可能性を開く。
本稿では,AIエージェントベースのWebテスティングフレームワークであるWebProberを紹介する。
URLを与えられたWebProberは、Webサイトを自律的に探索し、実際のユーザインタラクションをシミュレートし、バグとユーザビリティの問題を特定し、人間が読めるレポートを生成する。
120の学術的個人Webサイトのケーススタディを通じてWebProberを評価し,29のユーザビリティ問題を明らかにした。
本研究は,次世代ユーザ中心テストフレームワーク開発に向けた方向性を概説しながら,エージェントベースのテストが有望な方向性であることを示す。
関連論文リスト
- TESTQUEST: A Web Gamification Tool to Improve Locators and Page Objects Quality [2.156170153103442]
TestQUESTは、ロケータとページオブジェクトに適用することで、テストの堅牢性を改善するために設計されたツールである。
ロケータは、迅速なソフトウェア進化によるWebページ構造の頻繁な変化に非常に敏感です。
論文 参考訳(メタデータ) (2025-05-30T16:18:10Z) - AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents [28.20409050985182]
A/Bテストは、ヒトの大規模でライブなトラフィックに依存しているため、依然として制限されている。
本稿では,ユーザインタラクション行動と実際のWebページを自動的にシミュレートする新しいシステムであるAgentA/Bを提案する。
以上の結果から, エージェントA/Bは人間の行動パターンをエミュレートできる可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-13T21:10:56Z) - WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。
GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。
その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文 参考訳(メタデータ) (2025-02-25T16:45:08Z) - Automated Soap Opera Testing Directed by LLMs and Scenario Knowledge: Feasibility, Challenges, and Road Ahead [43.15092098658384]
探索的テスト(ET)は、テスト担当者の知識、創造性、経験を活用して、予期せぬバグをエンドユーザの視点から発見するさまざまなテストを作成する。
自動シナリオベースET(ソープオペラテスト)の実現可能性,課題,道程について検討する。
論文 参考訳(メタデータ) (2024-12-11T17:57:23Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。