論文の概要: Towards Automated Page Object Generation for Web Testing using Large Language Models
- arxiv url: http://arxiv.org/abs/2602.19294v1
- Date: Sun, 22 Feb 2026 18:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.56861
- Title: Towards Automated Page Object Generation for Web Testing using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたWebテストのためのページオブジェクトの自動生成に向けて
- Authors: Betül Karagöz, Filippo Ricca, Matteo Biagiola, Andrea Stocco,
- Abstract要約: 本稿では,Large Language Models (LLMs) を用いてWebテスト用ページオブジェクト(POs)を自動生成する実験的検討を行った。
以上の結果から, LLMは, 32.6%から54.0%の精度のPOを生成でき, 要素認識率は70%を超えることが示唆された。
- 参考スコア(独自算出の注目度): 2.451367554740889
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Page Objects (POs) are a widely adopted design pattern for improving the maintainability and scalability of automated end-to-end web tests. However, creating and maintaining POs is still largely a manual, labor-intensive activity, while automated solutions have seen limited practical adoption. In this context, the potential of Large Language Models (LLMs) for these tasks has remained largely unexplored. This paper presents an empirical study on the feasibility of using LLMs, specifically GPT-4o and DeepSeek Coder, to automatically generate POs for web testing. We evaluate the generated artifacts on an existing benchmark of five web applications for which manually written POs are available (the ground truth), focusing on accuracy (i.e., the proportion of ground truth elements correctly identified) and element recognition rate (i.e., the proportion of ground truth elements correctly identified or marked for modification). Our results show that LLMs can generate syntactically correct and functionally useful POs with accuracy values ranging from 32.6% to 54.0% and element recognition rate exceeding 70% in most cases. Our study contributes the first systematic evaluation of LLMs strengths and open challenges for automated PO generation, and provides directions for further research on integrating LLMs into practical testing workflows.
- Abstract(参考訳): Page Objects(PO)は、自動エンドツーエンドのWebテストの保守性とスケーラビリティを改善するために広く採用されているデザインパターンである。
しかし、POの作成とメンテナンスは依然として手作業による労働集約的な活動であり、自動化されたソリューションは実践的な採用が限られている。
この文脈では、これらのタスクに対するLarge Language Models (LLMs) の可能性はほとんど未解明のままである。
本稿では, LLM, 特に GPT-4o と DeepSeek Coder を用いた Web テスト用PO の自動生成の実現可能性に関する実証的研究を行う。
我々は,手書きのPOが利用可能である5つのWebアプリケーションの既存のベンチマークにおいて,生成したアーティファクトを,正確性(すなわち,正しく識別された基底真理要素の割合)と要素認識率(つまり,正しく識別されたあるいは修正のためにマークされた基底真理要素の割合)に焦点をあてて評価する。
以上の結果から, LLMは, 32.6%から54.0%の精度のPOを生成でき, 要素認識率は70%を超えることが示唆された。
本研究は,自動PO生成におけるLLMの強度とオープン課題の体系的評価に初めて貢献し,LLMの実践的なテストワークフローへの統合に関するさらなる研究の方向性を提供する。
関連論文リスト
- Finetuning LLMs for Automatic Form Interaction on Web-Browser in Selenium Testing Framework [4.53273595732354]
本稿では,セレンで高品質なテストケースを生成するために,大規模言語モデル(LLM)を訓練するための新しい手法を提案する。
我々は、さまざまな現実世界のフォームやテストシナリオをカバーし、トレーニングと評価のために、合成データセットと人間アノテーションデータセットの両方をキュレートする。
提案手法は, GPT-4o など,すべての評価指標において, 高いベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-11-19T06:43:21Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。
このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。
以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文 参考訳(メタデータ) (2025-05-12T14:05:23Z) - TMIQ: Quantifying Test and Measurement Domain Intelligence in Large Language Models [0.0]
大規模言語モデル(LLM)を定量的に評価するベンチマークであるTMIQ(Test and Measurement Intelligence Quotient)を導入する。
TMIQは、SCPIコマンドマッチング精度、ランク付けされた応答評価、Chain-of-Thought Reasoning (CoT)など、詳細な評価のための包括的なシナリオとメトリクスを提供する。
各種LSMの試験では, SCPIコマンドマッチング精度は56%から73%, 一致した第1位スコアは約33%であった。
論文 参考訳(メタデータ) (2025-03-03T23:12:49Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - An efficient approach to represent enterprise web application structure using Large Language Model in the service of Intelligent Quality Engineering [0.0]
本稿では,Large Language Models (LLM) を用いたエンタープライズWebアプリケーション構造を表現する新しい手法を提案する。
LLMの少数ショット学習能力を最適化する階層的表現手法を提案する。
我々の方法論は、自動ソフトウェアテストにおけるジェネレーティブAI技術の使用に関する既存の課題に対処する。
論文 参考訳(メタデータ) (2025-01-12T15:10:57Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Improving web element localization by using a large language model [6.126394204968227]
大きな言語モデル(LLM)は、あるタスクにおいて人間のような推論能力を示す。
本稿では、拡張Web要素ローカライゼーションアプローチであるVON Similo LLMを紹介し、評価する。
論文 参考訳(メタデータ) (2023-10-03T13:39:22Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。