論文の概要: Finetuning LLMs for Automatic Form Interaction on Web-Browser in Selenium Testing Framework
- arxiv url: http://arxiv.org/abs/2511.15168v1
- Date: Wed, 19 Nov 2025 06:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.664827
- Title: Finetuning LLMs for Automatic Form Interaction on Web-Browser in Selenium Testing Framework
- Title(参考訳): Selenium Testing FrameworkにおけるWebブラウザ上での自動フォームインタラクションのための微調整LDM
- Authors: Nguyen-Khang Le, Nguyen Hiep, Minh Nguyen, Son Luu, Trung Vo, Quan Bui, Nomura Shoshin, Le-Minh Nguyen,
- Abstract要約: 本稿では,セレンで高品質なテストケースを生成するために,大規模言語モデル(LLM)を訓練するための新しい手法を提案する。
我々は、さまざまな現実世界のフォームやテストシナリオをカバーし、トレーニングと評価のために、合成データセットと人間アノテーションデータセットの両方をキュレートする。
提案手法は, GPT-4o など,すべての評価指標において, 高いベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 5.016814887824976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated web application testing is a critical component of modern software development, with frameworks like Selenium widely adopted for validating functionality through browser automation. Among the essential aspects of such testing is the ability to interact with and validate web forms, a task that requires syntactically correct, executable scripts with high coverage of input fields. Despite its importance, this task remains underexplored in the context of large language models (LLMs), and no public benchmark or dataset exists to evaluate LLMs on form interaction generation systematically. This paper introduces a novel method for training LLMs to generate high-quality test cases in Selenium, specifically targeting form interaction testing. We curate both synthetic and human-annotated datasets for training and evaluation, covering diverse real-world forms and testing scenarios. We define clear metrics for syntax correctness, script executability, and input field coverage. Our empirical study demonstrates that our approach significantly outperforms strong baselines, including GPT-4o and other popular LLMs, across all evaluation metrics. Our work lays the groundwork for future research on LLM-based web testing and provides resources to support ongoing progress in this area.
- Abstract(参考訳): 自動Webアプリケーションテストは現代のソフトウェア開発において重要なコンポーネントであり、Seleniumのようなフレームワークはブラウザの自動化による機能の検証に広く採用されている。
このようなテストの重要な側面の1つは、Webフォームと対話し、検証する能力である。
その重要性にもかかわらず、このタスクは大規模言語モデル(LLM)の文脈では未熟であり、形式間相互作用生成においてLPMを評価するための公開ベンチマークやデータセットは存在しない。
本稿では,Selenium における高品質なテストケースを生成するための LLM のトレーニング手法について紹介する。
我々は、さまざまな現実世界のフォームやテストシナリオをカバーし、トレーニングと評価のために、合成データセットと人間アノテーションデータセットの両方をキュレートする。
我々は、構文の正確性、スクリプト実行可能性、入力フィールドカバレッジの明確な指標を定義する。
実験により,GPT-4oや他のLLMなど,すべての評価指標において,アプローチが強いベースラインを著しく上回ることが示された。
LLMベースのWebテスティングの今後の研究の基盤を築き、この分野の進展を支えるリソースを提供する。
関連論文リスト
- Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Large Language Models for Automated Web-Form-Test Generation: An Empirical Study [8.32635005234879]
大規模言語モデル(LLM)は文脈テキスト生成に大きな可能性を示している。
異なるLLMを比較した比較研究は、Web-form-test 生成についてはまだ報告されていない。
本稿では,鍵となる文脈情報を抽出する3つのHTML構造解析手法を提案する。
論文 参考訳(メタデータ) (2024-05-16T10:21:03Z) - Automating REST API Postman Test Cases Using LLM [0.0]
本稿では,大規模言語モデルを用いたテストケースの自動生成手法の探索と実装について述べる。
この方法論は、テストケース生成の効率性と有効性を高めるために、Open AIの使用を統合する。
この研究で開発されたモデルは、手作業で収集したポストマンテストケースやさまざまなRest APIのインスタンスを使ってトレーニングされている。
論文 参考訳(メタデータ) (2024-04-16T15:53:41Z) - Are We Testing or Being Tested? Exploring the Practical Applications of
Large Language Models in Software Testing [0.0]
LLM(Large Language Model)は、コヒーレントなコンテンツを生成する最先端の人工知能モデルである。
LLMは、ソフトウェアテストを含むソフトウェア開発において重要な役割を担います。
本研究では,産業環境でのソフトウェアテストにおけるLCMの実用化について検討する。
論文 参考訳(メタデータ) (2023-12-08T06:30:37Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - LLM for Test Script Generation and Migration: Challenges, Capabilities,
and Opportunities [8.504639288314063]
テストスクリプト生成はソフトウェアテストの重要なコンポーネントであり、反復的なテストタスクの効率的かつ信頼性の高い自動化を可能にする。
既存の世代のアプローチは、さまざまなデバイス、プラットフォーム、アプリケーション間でテストスクリプトを正確にキャプチャし、再現することの難しさなど、しばしば制限に直面する。
本稿では,モバイルアプリケーションテストスクリプト生成分野における大規模言語モデル(LLM)の適用について検討する。
論文 参考訳(メタデータ) (2023-09-24T07:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。