論文の概要: Are Autonomous Web Agents Good Testers?
- arxiv url: http://arxiv.org/abs/2504.01495v1
- Date: Wed, 02 Apr 2025 08:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 19:59:19.28419
- Title: Are Autonomous Web Agents Good Testers?
- Title(参考訳): 自律的なWebエージェントは良いテスタか?
- Authors: Antoine Chevrot, Alexandre Vernotte, Jean-Rémy Falleri, Xavier Blanc, Bruno Legeard,
- Abstract要約: 大規模言語モデル(LLMs)は、自律Webエージェント(AWAs)を活用することで、潜在的な代替手段を提供する。
AWAは自律テストエージェント(ATA)として機能する。
本稿では,自然言語テストケース実行におけるAWAの適用可能性について検討する。
- 参考スコア(独自算出の注目度): 41.56233403862961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in automated testing, manual testing remains prevalent due to the high maintenance demands associated with test script fragility-scripts often break with minor changes in application structure. Recent developments in Large Language Models (LLMs) offer a potential alternative by powering Autonomous Web Agents (AWAs) that can autonomously interact with applications. These agents may serve as Autonomous Test Agents (ATAs), potentially reducing the need for maintenance-heavy automated scripts by utilising natural language instructions similar to those used by human testers. This paper investigates the feasibility of adapting AWAs for natural language test case execution and how to evaluate them. We contribute with (1) a benchmark of three offline web applications, and a suite of 113 manual test cases, split between passing and failing cases, to evaluate and compare ATAs performance, (2) SeeAct-ATA and pinATA, two open-source ATA implementations capable of executing test steps, verifying assertions and giving verdicts, and (3) comparative experiments using our benchmark that quantifies our ATAs effectiveness. Finally we also proceed to a qualitative evaluation to identify the limitations of PinATA, our best performing implementation. Our findings reveal that our simple implementation, SeeAct-ATA, does not perform well compared to our more advanced PinATA implementation when executing test cases (50% performance improvement). However, while PinATA obtains around 60% of correct verdict and up to a promising 94% specificity, we identify several limitations that need to be addressed to develop more resilient and reliable ATAs, paving the way for robust, low maintenance test automation. CCS Concepts: $\bullet$ Software and its engineering $\rightarrow$ Software testing and debugging.
- Abstract(参考訳): 自動テストの進歩にもかかわらず、テストスクリプトの脆弱性に関する高いメンテナンス要求のため、手動テストは依然として一般的である。
大規模言語モデル(LLMs)の最近の開発は、アプリケーションと自律的に対話できる自律型Webエージェント(AWAs)を活用することで、潜在的な代替手段を提供する。
これらのエージェントは、自動テストエージェント(ATA)として機能し、人間のテスタが使用しているものに似た自然言語命令を利用することで、メンテナンスに重きを置く自動スクリプトの必要性を減らす可能性がある。
本稿では,自然言語テストケース実行におけるAWAの適用可能性とその評価方法について検討する。
1 つのオフライン Web アプリケーションのベンチマークと、1 つの手動テストケースのスイート、パスケースとフェールケースの分割、ATA のパフォーマンスの評価と比較、(2) SeeAct-ATA と pinATA の2つのオープンソース ATA 実装、テストステップの実行、アサーションの検証、評価の実施が可能な2 つのオープンソース ATA 実装、そして 3 つのベンチマークを用いて、ATA の有効性を定量化するための比較実験を行った。
最後に、PinATAの限界を特定するための定性的な評価を進めます。
我々の単純な実装であるSeeeAct-ATAは、テストケースの実行(50%のパフォーマンス改善)において、より先進的なPinATA実装と比較してうまく動作しないことがわかった。
しかし、PinATAは正しい判断の約60%を取得し、期待できる94%の特異性を達成していますが、よりレジリエンスで信頼性の高いATAを開発するために対処する必要があるいくつかの制限を特定し、堅牢で低いメンテナンステスト自動化の道を開いたのです。
CCSの概念:$\bullet$ソフトウェアとそのエンジニアリング$\rightarrow$ソフトウェアのテストとデバッグ。
関連論文リスト
- AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories [59.214178488091584]
我々は,LLM審査員によるWebエージェント評価の有効性を評価する最初のベンチマークであるAgentRewardBenchを提案する。
ベンチマークを用いて,12名のLLM審査員を評価し,全てのベンチマークでLLMが排他的でないことを発見した。
また、一般的なベンチマークで使用されるルールベースの評価は、Webエージェントの成功率を過小評価する傾向にあることも見出した。
論文 参考訳(メタデータ) (2025-04-11T19:49:22Z) - Automatic High-Level Test Case Generation using Large Language Models [1.8136446064778242]
主な課題は、テストスクリプトを書くのではなく、テスト作業とビジネス要件の整合性です。
我々は、高レベルのテストケースを生成するためのトレーニング/ファインチューンモデルを構築するユースケースデータセットを構築した。
当社の積極的なアプローチは要件テストのアライメントを強化し,早期テストケース生成を容易にする。
論文 参考訳(メタデータ) (2025-03-23T09:14:41Z) - AutoTestForge: A Multidimensional Automated Testing Framework for Natural Language Processing Models [11.958545255487735]
NLPモデルの自動化および多次元テストフレームワークであるAutoTestForgeを紹介する。
AutoTestForge内では、テストテンプレートを自動的に生成してインスタンス化するLarge Language Models(LLM)の利用により、手作業による関与が大幅に削減される。
また、このフレームワークは、分類学、公正性、堅牢性の3つの側面にまたがってテストスイートを拡張し、NLPモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2025-03-07T02:44:17Z) - ABFS: Natural Robustness Testing for LLM-based NLP Software [8.833542944724465]
自然言語処理(NLP)ソフトウェアにおけるLLM(Large Language Models)は、様々な領域で急速に普及している。
これらの応用は、入力中のわずかな摂動が誤った出力につながるような堅牢性欠陥をしばしば示している。
現在のロバストネス試験法は,(1) 試験効率の低下,(2) 試験ケースの自然性不足の2つの主な限界に直面している。
論文 参考訳(メタデータ) (2025-03-03T09:02:06Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Automated Test Case Repair Using Language Models [0.5708902722746041]
欠陥のないテストケースは、テストスイートの品質を低下させ、ソフトウェア開発プロセスを破壊します。
テストケースの自動修復に事前訓練されたコード言語モデルを活用する新しいアプローチであるTaRGETを提案する。
TaRGETは、テスト修復を言語翻訳タスクとして扱い、言語モデルを微調整するために2段階のプロセスを使用する。
論文 参考訳(メタデータ) (2024-01-12T18:56:57Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video
Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。
自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。
この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文 参考訳(メタデータ) (2022-03-10T00:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。