論文の概要: AI Agents for Web Testing: A Case Study in the Wild
- arxiv url: http://arxiv.org/abs/2509.05197v1
- Date: Fri, 05 Sep 2025 15:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.639414
- Title: AI Agents for Web Testing: A Case Study in the Wild
- Title(参考訳): AI Agents for Web Testing: 野生におけるケーススタディ
- Authors: Naimeng Ye, Xiao Yu, Ruize Xu, Tianyi Peng, Zhou Yu,
- Abstract要約: 本稿では,AIエージェントベースのWebテスティングフレームワークであるWebProberを紹介する。
URLを与えられたWebProberは、Webサイトを自律的に探索し、実際のユーザインタラクションをシミュレートし、バグとユーザビリティの問題を特定し、人間が読めるレポートを生成する。
120の学術的個人Webサイトのケーススタディを通じてWebProberを評価し,29のユーザビリティ問題を明らかにした。
- 参考スコア(独自算出の注目度): 20.669140680308494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated web testing plays a critical role in ensuring high-quality user experiences and delivering business value. Traditional approaches primarily focus on code coverage and load testing, but often fall short of capturing complex user behaviors, leaving many usability issues undetected. The emergence of large language models (LLM) and AI agents opens new possibilities for web testing by enabling human-like interaction with websites and a general awareness of common usability problems. In this work, we present WebProber, a prototype AI agent-based web testing framework. Given a URL, WebProber autonomously explores the website, simulating real user interactions, identifying bugs and usability issues, and producing a human-readable report. We evaluate WebProber through a case study of 120 academic personal websites, where it uncovered 29 usability issues--many of which were missed by traditional tools. Our findings highlight agent-based testing as a promising direction while outlining directions for developing next-generation, user-centered testing frameworks.
- Abstract(参考訳): 自動化されたWebテストは、高品質なユーザエクスペリエンスを確保し、ビジネス価値を提供する上で重要な役割を担います。
従来のアプローチは主にコードカバレッジと負荷テストに重点を置いていたが、多くの場合、複雑なユーザの振る舞いを捉えることができず、多くのユーザビリティの問題が検出されていないままだった。
大規模言語モデル(LLM)とAIエージェントの出現は、Webサイトとのヒューマンライクなインタラクションを可能にし、一般的なユーザビリティ問題に対する一般的な認識を可能にすることによって、Webテストの新たな可能性を開く。
本稿では,AIエージェントベースのWebテスティングフレームワークであるWebProberを紹介する。
URLを与えられたWebProberは、Webサイトを自律的に探索し、実際のユーザインタラクションをシミュレートし、バグとユーザビリティの問題を特定し、人間が読めるレポートを生成する。
120の学術的個人Webサイトのケーススタディを通じてWebProberを評価し,29のユーザビリティ問題を明らかにした。
本研究は,次世代ユーザ中心テストフレームワーク開発に向けた方向性を概説しながら,エージェントベースのテストが有望な方向性であることを示す。
関連論文リスト
- Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts [59.68272935616536]
Avenir-Webは、現実世界のデプロイにおいて、Online-Mind2Webベンチマークの新たなオープンソース状態を達成するWebエージェントである。
Avenir-Web on Online-Mind2Web, a rigorous benchmark of live and user-centered web task。
論文 参考訳(メタデータ) (2026-02-02T18:50:07Z) - Building the Web for Agents: A Declarative Framework for Agent-Web Interaction [0.7116403133334644]
我々は、WebサイトがAIエージェントの信頼性、監査可能、プライバシ保護機能を公開できるWebネイティブフレームワークVOIXを紹介した。
VOIXはツール>とコンテキスト>タグを導入し、開発者は利用可能なアクションと関連する状態を明確に定義できる。
16人の開発者を対象とした3日間のハッカソン研究で,本フレームワークの実用性,学習性,表現性を評価した。
論文 参考訳(メタデータ) (2025-11-14T13:23:34Z) - WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code [57.45181837786448]
MLLM(Multimodal Large Language Models)は、複雑なWebアプリケーション開発を実行するAIソフトウェアエンジニアとして機能する可能性がある。
既存のベンチマークは、通常、サブ能力の評価を提供し、Webページ生成結果のみに焦点を当てない。
WebUIパーセプション、HTMLプログラミング、WebUI-HTML理解、WebUI-to-Codeの4つの主要な領域でMLLMを評価するために体系的に設計されたベンチマークであるWebUIBenchを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:46:02Z) - TESTQUEST: A Web Gamification Tool to Improve Locators and Page Objects Quality [2.156170153103442]
TestQUESTは、ロケータとページオブジェクトに適用することで、テストの堅牢性を改善するために設計されたツールである。
ロケータは、迅速なソフトウェア進化によるWebページ構造の頻繁な変化に非常に敏感です。
論文 参考訳(メタデータ) (2025-05-30T16:18:10Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - AgentA/B: Automated and Scalable Web A/BTesting with Interactive LLM Agents [28.20409050985182]
A/Bテストは、ヒトの大規模でライブなトラフィックに依存しているため、依然として制限されている。
本稿では,ユーザインタラクション行動と実際のWebページを自動的にシミュレートする新しいシステムであるAgentA/Bを提案する。
以上の結果から, エージェントA/Bは人間の行動パターンをエミュレートできる可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-13T21:10:56Z) - WebGames: Challenging General-Purpose Web-Browsing AI Agents [11.320069795732058]
WebGamesは汎用的なWebブラウザAIエージェントを評価するために設計された包括的なベンチマークスイートである。
GPT-4o, Claude Computer-Use, Gemini-1.5-Pro, Qwen2-VLなどの視覚言語モデルを人為的性能に対して評価した。
その結果、最高のAIシステムは、人間のパフォーマンスが95.7%であるのに対して、43.1%の成功率しか達成していない。
論文 参考訳(メタデータ) (2025-02-25T16:45:08Z) - Automated Soap Opera Testing Directed by LLMs and Scenario Knowledge: Feasibility, Challenges, and Road Ahead [43.15092098658384]
探索的テスト(ET)は、テスト担当者の知識、創造性、経験を活用して、予期せぬバグをエンドユーザの視点から発見するさまざまなテストを作成する。
自動シナリオベースET(ソープオペラテスト)の実現可能性,課題,道程について検討する。
論文 参考訳(メタデータ) (2024-12-11T17:57:23Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks [93.85005277463802]
VisualWebArenaは、マルチモーダルWebエージェントのパフォーマンスを現実的なタスクで評価するために設計されたベンチマークである。
このベンチマークを実行するには、イメージテキスト入力を正確に処理し、自然言語命令を解釈し、ユーザが定義した目的を達成するためにウェブサイト上でアクションを実行する必要がある。
論文 参考訳(メタデータ) (2024-01-24T18:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。