Fugu-MT 論文翻訳(概要): Autonomous QA Agent: A Retrieval-Augmented Framework for Reliable Selenium Script Generation

論文の概要: Autonomous QA Agent: A Retrieval-Augmented Framework for Reliable Selenium Script Generation

arxiv url: http://arxiv.org/abs/2601.06034v1
Date: Fri, 28 Nov 2025 10:25:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-25 16:54:51.569326
Title: Autonomous QA Agent: A Retrieval-Augmented Framework for Reliable Selenium Script Generation
Title（参考訳）: 自律的なQAエージェント: 信頼性の高いSeleniumスクリプト生成のための検索拡張フレームワーク
Authors: Dudekula Kasim Vali,
Abstract要約: 大きな言語モデル(LLM)は、既存のUI要素を幻覚させるコードを生成することができる。本稿では,プロジェクト固有のドキュメンテーションとHTML構造にスクリプト生成を基盤としたRAG(Retrieval-Augmented Generation)システムであるAutonomous QA Agentを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software testing is critical in the software development lifecycle, yet translating requirements into executable test scripts remains manual and error-prone. While Large Language Models (LLMs) can generate code, they often hallucinate non-existent UI elements. We present the Autonomous QA Agent, a Retrieval-Augmented Generation (RAG) system that grounds Selenium script generation in project-specific documentation and HTML structure. By ingesting diverse formats (Markdown, PDF, HTML) into a vector database, our system retrieves relevant context before generation. Evaluation on 20 e-commerce test scenarios shows our RAG approach achieves 100% (20/20) syntax validity and 90% (18/20, 95% CI: [85%, 95%], p < 0.001) execution success, compared to 30% for standard LLM generation. While our evaluation is limited to a single domain, our method significantly reduces hallucinations by grounding generation in actual DOM structure, demonstrating RAG's potential for automated UI testing.
Abstract（参考訳）: ソフトウェア開発ライフサイクルにおいて、ソフトウェアテストは重要なものですが、要件を実行可能なテストスクリプトに変換することは、手動でエラーを起こします。大きな言語モデル(LLM)はコードを生成することができるが、既存のUI要素を幻覚させることが多い。本稿では,Retrieval-Augmented Generation (RAG)システムであるAutonomous QA Agentについて述べる。各種フォーマット(Markdown,PDF,HTML)をベクトルデータベースに取り込み,生成前に関連するコンテキストを検索する。 20のeコマーステストシナリオを評価すると、RAGアプローチは100%(20/20)の構文妥当性と90%(18/20,95% CI: [85%, 95%], p < 0.001)の実行成功を達成できる。評価は一つのドメインに限られるが,本手法は実際のDOM構造を生成することによって幻覚を著しく低減し,RAGによる自動UIテストの可能性を示す。

関連論文リスト

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation [48.502477318243386]
iScriptは、Innovus Tclスクリプト生成のためのドメイン適応Qwen3-8Bモデルである。 iScriptのパス@kスコアは、現在最先端のLLMよりも高い。
論文参考訳（メタデータ） (2026-03-04T15:20:35Z)
RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository [52.98970048197381]
RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。 18のドメインと11のフレームワークに106のリポジトリ(60のPython、46のJava)があり、1,258のAPIエンドポイントと2,335のテストケースが検証されている。その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
論文参考訳（メタデータ） (2026-01-20T13:19:20Z)
Finetuning LLMs for Automatic Form Interaction on Web-Browser in Selenium Testing Framework [4.53273595732354]
本稿では,セレンで高品質なテストケースを生成するために,大規模言語モデル(LLM)を訓練するための新しい手法を提案する。我々は、さまざまな現実世界のフォームやテストシナリオをカバーし、トレーニングと評価のために、合成データセットと人間アノテーションデータセットの両方をキュレートする。提案手法は, GPT-4o など,すべての評価指標において, 高いベースラインを著しく上回っている。
論文参考訳（メタデータ） (2025-11-19T06:43:21Z)
MacroBench: A Novel Testbed for Web Automation Scripts via Large Language Models [10.977990951788422]
我々は、HTML/DOMを読み、Seleniumを出力することで、LLMが再利用可能なブラウザ自動プログラム(マクロ)を自然言語で合成できるかどうかを評価するコードファーストベンチマークであるMacroBenchを紹介した。 MacroBenchは、681のタスクをカバーする7つのセルフホストサイトを、インタラクションの複雑さとターゲティングの難しさでインスタンス化する。 GPT-4o-mini (96.8%), GPT-4o (95.3%), Gemini (89.0%), DeepSeek (83.4%)
論文参考訳（メタデータ） (2025-10-05T21:15:11Z)
Impact of Code Context and Prompting Strategies on Automated Unit Test Generation with Modern General-Purpose Large Language Models [0.0]
ジェネレーティブAIは、ソフトウェアエンジニアリングにおいて注目を集めている。単体テストはテストケースの大部分を占め、しばしばスキーマ的である。本稿では,コードコンテキストが単体テストの品質と妥当性に与える影響について検討する。
論文参考訳（メタデータ） (2025-07-18T11:23:17Z)
ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文参考訳（メタデータ） (2025-07-07T12:53:00Z)
What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。 OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文参考訳（メタデータ） (2025-06-10T15:59:38Z)
TestForge: Feedback-Driven, Agentic Test Suite Generation [7.288137795439405]
TestForgeは、現実世界のコードのための高品質なテストスイートをコスト効率よく生成するように設計されたエージェントユニットテスティングフレームワークである。 TestForgeは、最先端の検索ベースの技術と比較して、より自然で理解しやすいテストを生成する。
論文参考訳（メタデータ） (2025-03-18T20:21:44Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
APITestGenie: Automated API Test Generation through Generative AI [2.0716352593701277]
APITestGenieはビジネス要件とAPI仕様から実行可能なAPIテストスクリプトを生成する。 10の現実世界のAPIを使った実験では、ツールが有効なテストスクリプトを57%生成した。人間の介入は、CI/CDパイプラインに統合される前に生成されたスクリプトを検証または洗練するために推奨される。
論文参考訳（メタデータ） (2024-09-05T18:02:41Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文参考訳（メタデータ） (2024-07-01T17:55:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。