論文の概要: Generating High-Level Test Cases from Requirements using LLM: An Industry Study
- arxiv url: http://arxiv.org/abs/2510.03641v1
- Date: Sat, 04 Oct 2025 03:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.172472
- Title: Generating High-Level Test Cases from Requirements using LLM: An Industry Study
- Title(参考訳): LLMを用いた高レベルテストケースの生成:産業研究
- Authors: Satoshi Masuda, Satoshi Kouzawa, Kyousuke Sezai, Hidetoshi Suhara, Yasuaki Hiruta, Kunihiro Kudou,
- Abstract要約: 現在、要件文書から自然言語で記述された高レベルなテストケースを手動で作成している。
大規模言語モデル(LLM)を用いた高レベルテストケースの生成にRAG(Research-augmented Generation)を用いる場合もある。
本稿では,RAGを作成することなく,要求文書から高レベル(GHL)テストケースを生成する手法を提案する。
- 参考スコア(独自算出の注目度): 0.2257707034197163
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Currently, generating high-level test cases described in natural language from requirement documents is performed manually. In the industry, including companies specializing in software testing, there is a significant demand for the automatic generation of high-level test cases from requirement documents using Large Language Models (LLMs). Efforts to utilize LLMs for requirement analysis are underway. In some cases, retrieval-augmented generation (RAG) is employed for generating high-level test cases using LLMs. However, in practical applications, it is necessary to create a RAG tailored to the knowledge system of each specific application, which is labor-intensive. Moreover, when applying high-level test case generation as a prompt, there is no established method for instructing the generation of high-level test cases at a level applicable to other specifications without using RAG. It is required to establish a method for the automatic generation of high-level test cases that can be generalized across a wider range of requirement documents. In this paper, we propose a method for generating high-level (GHL) test cases from requirement documents using only prompts, without creating RAGs. In the proposed method, first, the requirement document is input into the LLM to generate test design techniques corresponding to the requirement document. Then, high-level test cases are generated for each of the generated test design techniques. Furthermore, we verify an evaluation method based on semantic similarity of the generated high-level test cases. In the experiments, we confirmed the method using datasets from Bluetooth and Mozilla, where requirement documents and high-level test cases are available, achieving macro-recall measurement of 0.81 and 0.37, respectively. We believe that the method is feasible for practical application in generating high-level test cases without using RAG.
- Abstract(参考訳): 現在、要件文書から自然言語で記述された高レベルなテストケースを手動で作成している。
ソフトウェアテストに特化した企業を含む業界では、LLM(Large Language Models)を使用した要求文書から高レベルのテストケースの自動生成が要求されている。
LLMを要件分析に活用するための取り組みが進行中である。
LLMを用いた高レベルテストケースの生成にRAG(Research-augmented Generation)を用いる場合もある。
しかし,実践的な応用においては,労働集約的な個々のアプリケーションの知識システムに適したRAGを作成する必要がある。
さらに、プロンプトとして高レベルテストケース生成を適用する場合、RAGを使わずに他の仕様に適用可能なレベルで高レベルテストケースの生成を指示する確立した方法が存在しない。
幅広い要件文書にまたがって一般化可能な高レベルテストケースの自動生成手法を確立する必要がある。
本稿では,RAGを作成することなく,要求文書から高レベル(GHL)テストケースを生成する手法を提案する。
提案手法では,まず LLM に要求文書を入力し,要求文書に対応するテスト設計技術を生成する。
そして、生成されたテスト設計技術ごとに、ハイレベルなテストケースが生成される。
さらに,生成したハイレベルテストケースのセマンティックな類似性に基づく評価手法を検証する。
実験では,要求文書と高レベルテストケースが利用可能であるBluetoothとMozillaのデータセットを用いて,それぞれ0.81と0.37のマクロリコール測定を行った。
RAGを使わずに高レベルなテストケースを生成するために,本手法が実用化可能であると信じている。
関連論文リスト
- CodeChemist: Functional Knowledge Transfer for Low-Resource Code Generation via Test-Time Scaling [63.08126845138046]
本稿では,高リソースから低リソースPLへの機能的知識伝達を可能にする,テスト時間スケーリングのフレームワークであるCodeChemistを紹介する。
実験の結果,CodeChemistは既存のテストタイムスケーリング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-10-01T04:33:53Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。
自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。
調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文 参考訳(メタデータ) (2024-06-18T06:43:46Z) - A Tool for Test Case Scenarios Generation Using Large Language Models [3.9422957660677476]
この記事では、エピックやハイレベルなユーザストーリーとして、ユーザ要求を生成することに焦点を当てます。
LLMベースのエージェントを使用して、テストケースシナリオの自動生成をエンジニアリングに促す、Webベースのソフトウェアツールを導入している。
論文 参考訳(メタデータ) (2024-06-11T07:26:13Z) - Automated Control Logic Test Case Generation using Large Language Models [13.273872261029608]
大規模言語モデル(LLM)を問うPLCテストケースの自動生成のための新しい手法を提案する。
OSCAT自動化ライブラリから10のオープンソース関数ブロックを使用した実験では、このアプローチが高速で、使いやすく、かつ、ロー・トゥ・メジウムの複雑なプログラムに対して高いステートメントカバレッジを持つテストケースが得られることが示された。
論文 参考訳(メタデータ) (2024-05-03T06:09:21Z) - Automating REST API Postman Test Cases Using LLM [0.0]
本稿では,大規模言語モデルを用いたテストケースの自動生成手法の探索と実装について述べる。
この方法論は、テストケース生成の効率性と有効性を高めるために、Open AIの使用を統合する。
この研究で開発されたモデルは、手作業で収集したポストマンテストケースやさまざまなRest APIのインスタンスを使ってトレーニングされている。
論文 参考訳(メタデータ) (2024-04-16T15:53:41Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。