論文の概要: Are Autonomous Web Agents Good Testers?
- arxiv url: http://arxiv.org/abs/2504.01495v1
- Date: Wed, 02 Apr 2025 08:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:23:53.495982
- Title: Are Autonomous Web Agents Good Testers?
- Title(参考訳): 自律的なWebエージェントは良いテスタか?
- Authors: Antoine Chevrot, Alexandre Vernotte, Jean-Rémy Falleri, Xavier Blanc, Bruno Legeard,
- Abstract要約: 大規模言語モデル(LLMs)は、自律Webエージェント(AWAs)を活用することで、潜在的な代替手段を提供する。
AWAは自律テストエージェント(ATA)として機能する。
本稿では,自然言語テストケース実行におけるAWAの適用可能性について検討する。
- 参考スコア(独自算出の注目度): 41.56233403862961
- License:
- Abstract: Despite advances in automated testing, manual testing remains prevalent due to the high maintenance demands associated with test script fragility-scripts often break with minor changes in application structure. Recent developments in Large Language Models (LLMs) offer a potential alternative by powering Autonomous Web Agents (AWAs) that can autonomously interact with applications. These agents may serve as Autonomous Test Agents (ATAs), potentially reducing the need for maintenance-heavy automated scripts by utilising natural language instructions similar to those used by human testers. This paper investigates the feasibility of adapting AWAs for natural language test case execution and how to evaluate them. We contribute with (1) a benchmark of three offline web applications, and a suite of 113 manual test cases, split between passing and failing cases, to evaluate and compare ATAs performance, (2) SeeAct-ATA and pinATA, two open-source ATA implementations capable of executing test steps, verifying assertions and giving verdicts, and (3) comparative experiments using our benchmark that quantifies our ATAs effectiveness. Finally we also proceed to a qualitative evaluation to identify the limitations of PinATA, our best performing implementation. Our findings reveal that our simple implementation, SeeAct-ATA, does not perform well compared to our more advanced PinATA implementation when executing test cases (50% performance improvement). However, while PinATA obtains around 60% of correct verdict and up to a promising 94% specificity, we identify several limitations that need to be addressed to develop more resilient and reliable ATAs, paving the way for robust, low maintenance test automation. CCS Concepts: $\bullet$ Software and its engineering $\rightarrow$ Software testing and debugging.
- Abstract(参考訳): 自動テストの進歩にもかかわらず、テストスクリプトの脆弱性に関する高いメンテナンス要求のため、手動テストは依然として一般的である。
大規模言語モデル(LLMs)の最近の開発は、アプリケーションと自律的に対話できる自律型Webエージェント(AWAs)を活用することで、潜在的な代替手段を提供する。
これらのエージェントは、自動テストエージェント(ATA)として機能し、人間のテスタが使用しているものに似た自然言語命令を利用することで、メンテナンスに重きを置く自動スクリプトの必要性を減らす可能性がある。
本稿では,自然言語テストケース実行におけるAWAの適用可能性とその評価方法について検討する。
1 つのオフライン Web アプリケーションのベンチマークと、1 つの手動テストケースのスイート、パスケースとフェールケースの分割、ATA のパフォーマンスの評価と比較、(2) SeeAct-ATA と pinATA の2つのオープンソース ATA 実装、テストステップの実行、アサーションの検証、評価の実施が可能な2 つのオープンソース ATA 実装、そして 3 つのベンチマークを用いて、ATA の有効性を定量化するための比較実験を行った。
最後に、PinATAの限界を特定するための定性的な評価を進めます。
我々の単純な実装であるSeeeAct-ATAは、テストケースの実行(50%のパフォーマンス改善)において、より先進的なPinATA実装と比較してうまく動作しないことがわかった。
しかし、PinATAは正しい判断の約60%を取得し、期待できる94%の特異性を達成していますが、よりレジリエンスで信頼性の高いATAを開発するために対処する必要があるいくつかの制限を特定し、堅牢で低いメンテナンステスト自動化の道を開いたのです。
CCSの概念:$\bullet$ソフトウェアとそのエンジニアリング$\rightarrow$ソフトウェアのテストとデバッグ。
関連論文リスト
- QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。
我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T18:58:31Z) - The BrowserGym Ecosystem for Web Agent Research [151.90034093362343]
BrowserGymエコシステムは、Webエージェントの効率的な評価とベンチマークの必要性の高まりに対処する。
本稿では,Webエージェント研究のためのBrowserGymベースの拡張エコシステムを提案する。
大規模なマルチベンチマークWebエージェント実験を初めて実施し、6つのWebエージェントベンチマークで6つの最先端LCMの性能を比較した。
論文 参考訳(メタデータ) (2024-12-06T23:43:59Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - KAT: Dependency-aware Automated API Testing with Large Language Models [1.7264233311359707]
KAT(Katalon API Testing)は、APIを検証するためのテストケースを自律的に生成する、AI駆動の新たなアプローチである。
実世界の12のサービスを用いたKATの評価は、検証カバレッジを改善し、文書化されていないステータスコードを検出し、これらのサービスの偽陽性を低減できることを示している。
論文 参考訳(メタデータ) (2024-07-14T14:48:18Z) - Automated Test Case Repair Using Language Models [0.5708902722746041]
欠陥のないテストケースは、テストスイートの品質を低下させ、ソフトウェア開発プロセスを破壊します。
テストケースの自動修復に事前訓練されたコード言語モデルを活用する新しいアプローチであるTaRGETを提案する。
TaRGETは、テスト修復を言語翻訳タスクとして扱い、言語モデルを微調整するために2段階のプロセスを使用する。
論文 参考訳(メタデータ) (2024-01-12T18:56:57Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z) - Automated Performance Testing Based on Active Deep Learning [2.179313476241343]
ブラックボックス性能試験のためのACTAと呼ばれる自動テスト生成手法を提案する。
ACTAはアクティブな学習に基づいており、テスト中のシステムのパフォーマンス特性を知るために、大量の履歴テストデータを必要としないことを意味します。
我々は,ベンチマークWebアプリケーション上でACTAを評価し,本手法がランダムテストに匹敵することを示す実験結果を得た。
論文 参考訳(メタデータ) (2021-04-05T18:19:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。