論文の概要: Large Language Models for Automated Web-Form-Test Generation: An Empirical Study
- arxiv url: http://arxiv.org/abs/2405.09965v2
- Date: Sun, 18 May 2025 07:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.147986
- Title: Large Language Models for Automated Web-Form-Test Generation: An Empirical Study
- Title(参考訳): Webフォームテスト自動生成のための大規模言語モデル:実証的研究
- Authors: Tao Li, Chenhui Cui, Rubing Huang, Dave Towey, Lei Ma,
- Abstract要約: 大規模言語モデル(LLM)は文脈テキスト生成に大きな可能性を示している。
異なるLLMを比較した比較研究は、Web-form-test 生成についてはまだ報告されていない。
本稿では,鍵となる文脈情報を抽出する3つのHTML構造解析手法を提案する。
- 参考スコア(独自算出の注目度): 8.32635005234879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Testing web forms is an essential activity for ensuring the quality of web applications. It typically involves evaluating the interactions between users and forms. Automated test-case generation remains a challenge for web-form testing: Due to the complex, multi-level structure of web pages, it can be difficult to automatically capture their inherent contextual information for inclusion in the tests. Large Language Models (LLMs) have shown great potential for contextual text generation. This motivated us to explore how they could generate automated tests for web forms, making use of the contextual information within form elements. To the best of our knowledge, no comparative study examining different LLMs has yet been reported for web-form-test generation. To address this gap in the literature, we conducted a comprehensive empirical study investigating the effectiveness of 11 LLMs on 146 web forms from 30 open-source Java web applications. In addition, we propose three HTML-structure-pruning methods to extract key contextual information. The experimental results show that different LLMs can achieve different testing effectiveness. Compared with GPT-4, the other LLMs had difficulty generating appropriate tests for the web forms: Their successfully-submitted rates (SSRs) decreased by 9.10% to 74.15%. Our findings also show that, for all LLMs, when the designed prompts include complete and clear contextual information about the web forms, more effective web-form tests were generated. Specifically, when using Parser-Processed HTML for Task Prompt (PH-P), the SSR averaged 70.63%, higher than the 60.21% for Raw HTML for Task Prompt (RH-P) and 50.27% for LLM-Processed HTML for Task Prompt (LH-P). Finally, this paper also highlights strategies for selecting LLMs based on performance metrics, and for optimizing the prompt design to improve the quality of the web-form tests.
- Abstract(参考訳): Webフォームのテストは、Webアプリケーションの品質を保証するための重要な活動である。
通常、ユーザとフォーム間のインタラクションを評価する。
ウェブページの複雑なマルチレベル構造のため、テストに含めるための固有のコンテキスト情報を自動的にキャプチャすることは困難です。
大規模言語モデル(LLM)は文脈テキスト生成に大きな可能性を示している。
これによって、フォーム要素内のコンテキスト情報を利用して、Webフォームの自動テストを生成する方法を探ることができたのです。
我々の知る限り、Web-form-test 生成のための異なる LLM の比較研究は、まだ報告されていない。
このギャップに対処するため、30のオープンソースJava Webアプリケーションから146のWebフォームに対して、11のLLMの有効性を総合的に調査した。
さらに,鍵となる文脈情報を抽出する3つのHTML構造解析手法を提案する。
実験結果から, 異なるLLMが異なる試験効率を達成できることが示唆された。
GPT-4と比較すると、他のLCMはWebフォームの適切なテストを生成するのに難しかった: 成功率(SSR)は9.10%から74.15%まで低下した。
また,全ての LLM に対して,Web フォームに関する完全かつ明確な文脈情報を含むプロンプトを設計した場合,より効果的な Web フォームテストが生成された。
特に、Parser-Processed HTML for Task Prompt (PH-P) を使用する場合、SSRの平均は70.63%、Raw HTML for Task Prompt (RH-P) は60.21%、LLM-Processed HTML for Task Prompt (LH-P) は50.27%であった。
最後に、性能指標に基づくLCMの選択戦略と、Webフォームテストの品質向上のためにプロンプト設計を最適化する戦略を強調した。
関連論文リスト
- Learning to Contextualize Web Pages for Enhanced Decision Making by LLM Agents [89.98593996816186]
複雑なWebページをより理解しやすい形式にするための言語モデルを学習するためのフレームワークであるLCoWを紹介する。
LCoWは、別々のコンテキスト化モジュールをトレーニングすることで、意思決定からWebページ理解を分離する。
我々の文脈化モジュールは、様々なスケールのLLMエージェントと効果的に統合され、意思決定能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-03-12T01:33:40Z) - An efficient approach to represent enterprise web application structure using Large Language Model in the service of Intelligent Quality Engineering [0.0]
本稿では,Large Language Models (LLM) を用いたエンタープライズWebアプリケーション構造を表現する新しい手法を提案する。
LLMの少数ショット学習能力を最適化する階層的表現手法を提案する。
我々の方法論は、自動ソフトウェアテストにおけるジェネレーティブAI技術の使用に関する既存の課題に対処する。
論文 参考訳(メタデータ) (2025-01-12T15:10:57Z) - Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.056044348209483]
クラスやメソッドなどのコードモジュールのバグを特定するのに不可欠なユニットテストは、時間的制約のため、開発者によって無視されることが多い。
GPTやMistralのようなLarge Language Models (LLM)は、テスト生成を含むソフトウェア工学における約束を示す。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - On the Evaluation of Large Language Models in Unit Test Generation [16.447000441006814]
単体テストは、ソフトウェアコンポーネントの正しさを検証するために、ソフトウェア開発において不可欠な活動である。
LLM(Large Language Models)の出現は、ユニットテスト生成を自動化するための新しい方向性を提供する。
論文 参考訳(メタデータ) (2024-06-26T08:57:03Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。
本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。
以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-20T10:27:01Z) - Prompting Large Language Models to Tackle the Full Software Development Lifecycle: A Case Study [72.24266814625685]
DevEvalでソフトウェア開発ライフサイクル全体にわたって、大きな言語モデル(LLM)のパフォーマンスを調査します。
DevEvalは4つのプログラミング言語、複数のドメイン、高品質なデータ収集、各タスクに対して慎重に設計および検証されたメトリクスを備えている。
GPT-4を含む現在のLLMは、DevEvalで提示される課題を解決できないことが実証研究によって示されている。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Are We Testing or Being Tested? Exploring the Practical Applications of
Large Language Models in Software Testing [0.0]
LLM(Large Language Model)は、コヒーレントなコンテンツを生成する最先端の人工知能モデルである。
LLMは、ソフトウェアテストを含むソフトウェア開発において重要な役割を担います。
本研究では,産業環境でのソフトウェアテストにおけるLCMの実用化について検討する。
論文 参考訳(メタデータ) (2023-12-08T06:30:37Z) - Improving web element localization by using a large language model [6.126394204968227]
大きな言語モデル(LLM)は、あるタスクにおいて人間のような推論能力を示す。
本稿では、拡張Web要素ローカライゼーションアプローチであるVON Similo LLMを紹介し、評価する。
論文 参考訳(メタデータ) (2023-10-03T13:39:22Z) - CodeIE: Large Code Generation Models are Better Few-Shot Information
Extractors [92.17328076003628]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、多くのNLPタスクにおいて、驚くべき数ショットの学習能力を示している。
本稿では、自然言語の代わりに構造化された出力をコード形式で再キャストすることを提案する。
論文 参考訳(メタデータ) (2023-05-09T18:40:31Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。