論文の概要: Generating Test Scenarios from NL Requirements using Retrieval-Augmented LLMs: An Industrial Study
- arxiv url: http://arxiv.org/abs/2404.12772v1
- Date: Fri, 19 Apr 2024 10:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:26:30.746079
- Title: Generating Test Scenarios from NL Requirements using Retrieval-Augmented LLMs: An Industrial Study
- Title(参考訳): 検索用LLMを用いたNL要件からの試験シナリオの生成:工業的考察
- Authors: Chetan Arora, Tomas Herda, Verena Homm,
- Abstract要約: 本稿では,Large Language Models (LLM) を用いたRAG(Retrieval-Augmented Generation) を用いたテストシナリオ生成のための自動アプローチ(RAGTAG)を提案する。
オーストリアポストの2つの産業プロジェクトにおけるRAGTAGの評価を行い,ドイツ語と英語のバイリンガル要件について検討した。
- 参考スコア(独自算出の注目度): 5.179738379203527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test scenarios are specific instances of test cases that describe actions to validate a particular software functionality. By outlining the conditions under which the software operates and the expected outcomes, test scenarios ensure that the software functionality is tested in an integrated manner. Test scenarios are crucial for systematically testing an application under various conditions, including edge cases, to identify potential issues and guarantee overall performance and reliability. Specifying test scenarios is tedious and requires a deep understanding of software functionality and the underlying domain. It further demands substantial effort and investment from already time- and budget-constrained requirements engineers and testing teams. This paper presents an automated approach (RAGTAG) for test scenario generation using Retrieval-Augmented Generation (RAG) with Large Language Models (LLMs). RAG allows the integration of specific domain knowledge with LLMs' generation capabilities. We evaluate RAGTAG on two industrial projects from Austrian Post with bilingual requirements in German and English. Our results from an interview survey conducted with four experts on five dimensions -- relevance, coverage, correctness, coherence and feasibility, affirm the potential of RAGTAG in automating test scenario generation. Specifically, our results indicate that, despite the difficult task of analyzing bilingual requirements, RAGTAG is able to produce scenarios that are well-aligned with the underlying requirements and provide coverage of different aspects of the intended functionality. The generated scenarios are easily understandable to experts and feasible for testing in the project environment. The overall correctness is deemed satisfactory; however, gaps in capturing exact action sequences and domain nuances remain, underscoring the need for domain expertise when applying LLMs.
- Abstract(参考訳): テストシナリオは、特定のソフトウェア機能を検証するアクションを記述するテストケースの特定のインスタンスである。
ソフトウェアが動作している条件と期待される成果を概説することにより、テストシナリオは、ソフトウェア機能が統合された方法でテストされることを保証する。
テストシナリオは、エッジケースを含むさまざまな条件下でアプリケーションを体系的にテストするために重要であり、潜在的な問題を特定し、全体的なパフォーマンスと信頼性を保証する。
テストシナリオを特定するのは面倒で、ソフトウェア機能と基礎となるドメインを深く理解する必要があります。
さらに、時間と予算に制約のある要件エンジニアとテストチームから、相当な努力と投資を必要とします。
本稿では,Large Language Models (LLMs) を用いたRetrieval-Augmented Generation (RAG) を用いたテストシナリオ生成のための自動アプローチ(RAGTAG)を提案する。
RAGは、特定のドメイン知識とLLMの生成能力の統合を可能にする。
オーストリアポストの2つの産業プロジェクトにおけるRAGTAGの評価を行い,ドイツ語と英語のバイリンガル要件について検討した。
テストシナリオの自動生成におけるRAGTAGの可能性を確認するため,5次元の専門家4名を対象に調査を行った。
具体的には,両言語要件を解析する難しい作業にもかかわらず,RAGTAGは,基礎となる要件に整合したシナリオを生成し,意図した機能の異なる側面をカバーできることを示す。
生成されたシナリオは、専門家にとって容易に理解でき、プロジェクト環境でのテストも可能です。
全体的な正しさは満足できると考えられているが、正確なアクションシーケンスとドメインのニュアンスをキャプチャするギャップは残っており、LLMを適用する際にはドメインの専門知識の必要性が強調されている。
関連論文リスト
- Ocassionally Secure: A Comparative Analysis of Code Generation
Assistants [8.573156248244695]
本稿では,LLMを効果的かつ安全に展開できる状況と状況を特定し,理解することに焦点を当てる。
Google の ChatGPT と Bard と Gemini を用いた 4 つの高度な LLM--GPT-3.5 と GPT-4 の比較分析を行い,各モデルのコード生成能力を評価した。
61のコードアウトプットを収集し、機能、セキュリティ、パフォーマンス、複雑さ、信頼性など、さまざまな側面で分析しました。
論文 参考訳(メタデータ) (2024-02-01T15:49:47Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Towards Generating Executable Metamorphic Relations Using Large Language
Models [49.632090604977364]
大規模言語モデル(LLM)を用いた要件から実行可能なMRを自動的に抽出する手法を提案する。
提案手法の有効性を評価するため,シーメンス・インダストリー・ソフトウェアと共同で質問紙調査を行った。
論文 参考訳(メタデータ) (2024-01-30T13:52:47Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Selene: Pioneering Automated Proof in Software Verification [69.7891799471749]
我々は,seL4オペレーティングシステムマイクロカーネルの実際の産業レベルのプロジェクトに基づいて構築された,最初のプロジェクトレベルの自動証明ベンチマークであるSeleneを紹介する。
GPT-3.5-turbo や GPT-4 のような先進的な LLM による実験結果は,自動証明生成領域における大規模言語モデル (LLM) の機能を強調した。
論文 参考訳(メタデータ) (2024-01-15T13:08:38Z) - Are We Testing or Being Tested? Exploring the Practical Applications of
Large Language Models in Software Testing [0.0]
LLM(Large Language Model)は、コヒーレントなコンテンツを生成する最先端の人工知能モデルである。
LLMは、ソフトウェアテストを含むソフトウェア開発において重要な役割を担います。
本研究では,産業環境でのソフトウェアテストにおけるLCMの実用化について検討する。
論文 参考訳(メタデータ) (2023-12-08T06:30:37Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - LLM for Test Script Generation and Migration: Challenges, Capabilities,
and Opportunities [8.504639288314063]
テストスクリプト生成はソフトウェアテストの重要なコンポーネントであり、反復的なテストタスクの効率的かつ信頼性の高い自動化を可能にする。
既存の世代のアプローチは、さまざまなデバイス、プラットフォーム、アプリケーション間でテストスクリプトを正確にキャプチャし、再現することの難しさなど、しばしば制限に直面する。
本稿では,モバイルアプリケーションテストスクリプト生成分野における大規模言語モデル(LLM)の適用について検討する。
論文 参考訳(メタデータ) (2023-09-24T07:58:57Z) - A Requirements-Driven Platform for Validating Field Operations of Small
Uncrewed Aerial Vehicles [48.67061953896227]
DroneReqValidator (DRV)は、sUAS開発者が運用コンテキストを定義し、複数のsUASミッション要件を設定し、安全性特性を指定し、独自のsUASアプリケーションを高忠実な3D環境にデプロイすることを可能にする。
DRVモニタリングシステムは、sUASと環境からランタイムデータを収集し、安全特性のコンプライアンスを分析し、違反をキャプチャする。
論文 参考訳(メタデータ) (2023-07-01T02:03:49Z) - Prioritized Variable-length Test Cases Generation for Finite State
Machines [0.09786690381850353]
モデルベーステスト(MBT)は、システムアンダーテストの一部が有限状態マシン(FSM)の特性を持つ場合のテストに有効な手法である。
本稿では,これらの要件をすべて満たしたテスト生成戦略を提案する。
本論文では,FSMの適用状況に応じて,機能的および非機能的ソフトウェア要件のテストにも適用可能である。
論文 参考訳(メタデータ) (2022-03-17T20:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。