論文の概要: Leveraging Large Language Models for Automated Web-Form-Test Generation: An Empirical Study
- arxiv url: http://arxiv.org/abs/2405.09965v1
- Date: Thu, 16 May 2024 10:21:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:41:47.969444
- Title: Leveraging Large Language Models for Automated Web-Form-Test Generation: An Empirical Study
- Title(参考訳): Webフォームテスト自動生成のための大規模言語モデルの活用:実証的研究
- Authors: Tao Li, Chenhui Cui, Lei Ma, Dave Towey, Yujie Xie, Rubing Huang,
- Abstract要約: 大規模言語モデル(LLM)は文脈テキスト生成に大きな可能性を秘めている。
OpenAIのGPT LLMは、ソフトウェアテストで多くの注目を集めています。
本研究では、30のオープンソースJava Webアプリケーションから146のWebフォームに対する11のLLMの有効性について検討する。
- 参考スコア(独自算出の注目度): 7.857895177494495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The testing of web forms is an essential activity for ensuring the quality of web applications, which mainly involves evaluating the interactions between users and forms. Automated test-case generation remains a challenge for web-form testing: Due to the complex, multi-level structure of web pages, it can be difficult to automatically capture their inherent contextual information for inclusion in the tests. Large Language Models (LLMs) have great potential for contextual text generation. OpenAI's GPT LLMs have been receiving a lot of attention in software testing, however, they may fail to be applied in practice because of information security concerns. To the best of our knowledge, no comparative study examining different LLMs has yet been reported for web-form-test generation. To address this gap in the literature, we conducted a comprehensive empirical study investigating the effectiveness of 11 LLMs on 146 web forms from 30 open-source Java web applications. According to the experimental results, different LLMs can achieve different testing effectiveness. Notably, the GPT-4, GLM-4, and Baichuan2 LLMs can generate better web-form tests than the others. Compared with GPT-4, other LLMs find it difficult to generate appropriate tests for web forms, resulting in decreased successfully-submitted rates (SSRs, measured by the proportions of the LLMs-generated web-form tests that can be successfully inserted into the web forms and submitted) ranging from 9.10% to 74.15%. Nevertheless, some LLMs achieve higher SSRs than GPT-3.5, indicating a better ability to generate appropriate tests for web forms. Our findings also show that, for all LLMs, when the designed prompts include complete and clear contextual information about the web forms, more effective web-form tests were generated. Finally, we offer some insights for using LLMs to guide automated web-form testing.
- Abstract(参考訳): Webフォームのテストは、ユーザとフォーム間のインタラクションを主に評価するWebアプリケーションの品質を保証するために不可欠な活動である。
ウェブページの複雑なマルチレベル構造のため、テストに含めるための固有のコンテキスト情報を自動的にキャプチャすることは困難です。
大規模言語モデル(LLM)は文脈テキスト生成に大きな可能性を秘めている。
OpenAIのGPT LLMは、ソフトウェアテストにおいて多くの注目を集めているが、情報セキュリティ上の懸念から、実際には適用されない可能性がある。
我々の知る限り、Web-form-test 生成のための異なる LLM の比較研究は、まだ報告されていない。
このギャップに対処するため、30のオープンソースJava Webアプリケーションから146のWebフォームに対して、11のLLMの有効性を総合的に調査した。
実験結果によると、異なるLLMは異なるテスト効率を達成することができる。
特に、GPT-4、GLM-4、Baichuan2 LLMは、他のものよりも優れたWebフォームテストを生成することができる。
GPT-4と比較すると、他のLCMでは、Webフォームの適切なテストを生成することは困難であり、その結果、9.10%から74.15%の範囲で、LLMの生成したWebフォームテストの比率によって測定されたSSRが減少する。
しかしながら、一部のLCMはGPT-3.5よりも高いSSRを達成しており、Webフォームの適切なテストを生成する能力が向上している。
また,全ての LLM に対して,Web フォームに関する完全かつ明確な文脈情報を含むプロンプトを設計した場合,より効果的な Web フォームテストが生成された。
最後に、自動WebフォームテストのガイドにLLMを使うことについて、いくつかの洞察を提供する。
関連論文リスト
- Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.056044348209483]
クラスやメソッドなどのコードモジュールのバグを特定するのに不可欠なユニットテストは、時間的制約のため、開発者によって無視されることが多い。
GPTやMistralのようなLarge Language Models (LLM)は、テスト生成を含むソフトウェア工学における約束を示す。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - On the Evaluation of Large Language Models in Unit Test Generation [16.447000441006814]
単体テストは、ソフトウェアコンポーネントの正しさを検証するために、ソフトウェア開発において不可欠な活動である。
LLM(Large Language Models)の出現は、ユニットテスト生成を自動化するための新しい方向性を提供する。
論文 参考訳(メタデータ) (2024-06-26T08:57:03Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Large Language Models as Test Case Generators: Performance Evaluation and Enhancement [3.5398126682962587]
大規模言語モデルが高品質なテストケースをいかに生み出すかを検討する。
本稿では,テストインプットとテストアウトプットの生成を分離するemphTestChainというマルチエージェントフレームワークを提案する。
以上の結果から,TestChainはベースラインのマージンを大きく上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-04-20T10:27:01Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Are We Testing or Being Tested? Exploring the Practical Applications of
Large Language Models in Software Testing [0.0]
LLM(Large Language Model)は、コヒーレントなコンテンツを生成する最先端の人工知能モデルである。
LLMは、ソフトウェアテストを含むソフトウェア開発において重要な役割を担います。
本研究では,産業環境でのソフトウェアテストにおけるLCMの実用化について検討する。
論文 参考訳(メタデータ) (2023-12-08T06:30:37Z) - Improving web element localization by using a large language model [6.126394204968227]
大きな言語モデル(LLM)は、あるタスクにおいて人間のような推論能力を示す。
本稿では、拡張Web要素ローカライゼーションアプローチであるVON Similo LLMを紹介し、評価する。
論文 参考訳(メタデータ) (2023-10-03T13:39:22Z) - CodeIE: Large Code Generation Models are Better Few-Shot Information
Extractors [92.17328076003628]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、多くのNLPタスクにおいて、驚くべき数ショットの学習能力を示している。
本稿では、自然言語の代わりに構造化された出力をコード形式で再キャストすることを提案する。
論文 参考訳(メタデータ) (2023-05-09T18:40:31Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。