論文の概要: Temac: Multi-Agent Collaboration for Automated Web GUI Testing
- arxiv url: http://arxiv.org/abs/2506.00520v1
- Date: Sat, 31 May 2025 11:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.174771
- Title: Temac: Multi-Agent Collaboration for Automated Web GUI Testing
- Title(参考訳): Temac: 自動Web GUIテストのためのマルチエージェントコラボレーション
- Authors: Chenxu Liu, Zhiyu Gu, Guoquan Wu, Ying Zhang, Jun Wei, Tao Xie,
- Abstract要約: 我々は,大規模言語モデル(LLM)を用いた自動Web GUIテスト(AWGT)を強化し,コードカバレッジを向上させるアプローチであるTemacを提案する。
評価の結果,Temacは6つの複雑なオープンソースWebアプリケーションのコードカバレッジの平均12.5%から60.3%に,最先端のアプローチを超越していることがわかった。
- 参考スコア(独自算出の注目度): 10.661373474430604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quality assurance of web applications is critical, as web applications play an essential role in people's daily lives. To reduce labor costs, automated web GUI testing (AWGT) is widely adopted, exploring web applications via GUI actions such as clicks and text inputs. However, these approaches face limitations in generating continuous and meaningful action sequences capable of covering complex functionalities. Recent work incorporates large language models (LLMs) for GUI testing. However, these approaches face various challenges, including low efficiency of LLMs, high complexity of rich web application contexts, and a low success rate of LLMs in executing GUI tasks. To address these challenges, in this paper, we propose Temac, an approach that enhances AWGT using LLM-based multi-agent collaboration to increase code coverage. Temac is motivated by our insight that LLMs can enhance AWGT in executing complex functionalities, while the information discovered during AWGT can, in turn, be provided as the domain knowledge to improve the LLM-based task execution. Specifically, given a web application, Temac initially runs an existing approach to broadly explore application states. When the testing coverage stagnates, Temac then employs LLM-based agents to summarize the collected information to form a knowledge base and to infer not-covered functionalities. Guided by this knowledge base, Temac finally uses specialized LLM-based agents to target and execute the not-covered functionalities, reaching deeper states beyond those explored by the existing approach. Our evaluation results show that Temac exceeds state-of-the-art approaches from 12.5% to 60.3% on average code coverage on six complex open-source web applications, while revealing 445 unique failures in the top 20 real-world web applications. These results strongly demonstrate the effectiveness and the general applicability of Temac.
- Abstract(参考訳): Webアプリケーションの品質保証は、人々の日常生活において重要な役割を担っているため、非常に重要である。
作業コストを削減するため、自動Web GUIテスト(AWGT)が広く採用され、クリックやテキスト入力などのGUIアクションを介してWebアプリケーションを探索する。
しかし、これらのアプローチは、複雑な機能をカバーすることができる連続かつ有意義なアクションシーケンスを生成する際の制限に直面している。
最近の研究にはGUIテストのための大きな言語モデル(LLM)が組み込まれている。
しかし、これらのアプローチは、LLMの効率の低下、リッチなWebアプリケーションのコンテキストの複雑さの増大、GUIタスクの実行におけるLLMの成功率の低下など、様々な課題に直面している。
これらの課題に対処するため,本稿では,LLMベースのマルチエージェントコラボレーションによるAWGTを強化し,コードカバレッジを向上させるアプローチであるTemacを提案する。
テマックは、LLMが複雑な機能の実行においてAWGTを強化することができるという私たちの洞察に動機付けられており、AWGTで発見された情報は、LLMベースのタスク実行を改善するためのドメイン知識として提供することができる。
具体的には、Webアプリケーションを考えると、Temacは最初、アプリケーションの状態を広範囲に調査するための既存のアプローチを実行している。
テストカバレッジが停滞すると、TemacはLLMベースのエージェントを使用して、収集した情報を要約し、知識ベースを形成し、カバーされていない機能を推測する。
この知識ベースによってガイドされたTemacは、最終的にLLMベースのエージェントを使用して、カバーされていない機能をターゲットにし、実行し、既存のアプローチによって探索された以上の深い状態に到達した。
評価の結果、テマックは6つの複雑なオープンソースウェブアプリケーションの平均コードカバレッジで12.5%から60.3%まで最先端のアプローチを上回り、また現実世界のウェブアプリケーションのトップ20では445のユニークな障害を明らかにした。
これらの結果はテマックの有効性と汎用性を強く示している。
関連論文リスト
- WebWalker: Benchmarking LLMs in Web Traversal [64.48425443951749]
WebWalkerQAは,LLMがWebトラバースを実現する能力を評価するためのベンチマークである。
本稿では,WebWalkerを提案する。WebWalkerは,探索的・批判的パラダイムを通じて,人間のようなWebナビゲーションを模倣するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-01-13T18:58:07Z) - LITA: An Efficient LLM-assisted Iterative Topic Augmentation Framework [0.0]
大きな言語モデル(LLM)は動的トピックの洗練と発見の可能性を秘めている。
これらの課題に対処するため、LLM支援反復トピック拡張フレームワーク(LITA)を提案する。
LITAは、ユーザが提供するシードと埋め込みベースのクラスタリングと反復的な改良を統合している。
論文 参考訳(メタデータ) (2024-12-17T01:43:44Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。