Fugu-MT 論文翻訳(概要): Generating Test Scenarios from NL Requirements using Retrieval-Augmented LLMs: An Industrial Study

論文の概要: Generating Test Scenarios from NL Requirements using Retrieval-Augmented LLMs: An Industrial Study

arxiv url: http://arxiv.org/abs/2404.12772v1
Date: Fri, 19 Apr 2024 10:27:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 15:26:30.746079
Title: Generating Test Scenarios from NL Requirements using Retrieval-Augmented LLMs: An Industrial Study
Title（参考訳）: 検索用LLMを用いたNL要件からの試験シナリオの生成:工業的考察
Authors: Chetan Arora, Tomas Herda, Verena Homm,
Abstract要約: 本稿では,Large Language Models (LLM) を用いたRAG(Retrieval-Augmented Generation) を用いたテストシナリオ生成のための自動アプローチ(RAGTAG)を提案する。オーストリアポストの2つの産業プロジェクトにおけるRAGTAGの評価を行い,ドイツ語と英語のバイリンガル要件について検討した。
参考スコア（独自算出の注目度）: 5.179738379203527
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Test scenarios are specific instances of test cases that describe actions to validate a particular software functionality. By outlining the conditions under which the software operates and the expected outcomes, test scenarios ensure that the software functionality is tested in an integrated manner. Test scenarios are crucial for systematically testing an application under various conditions, including edge cases, to identify potential issues and guarantee overall performance and reliability. Specifying test scenarios is tedious and requires a deep understanding of software functionality and the underlying domain. It further demands substantial effort and investment from already time- and budget-constrained requirements engineers and testing teams. This paper presents an automated approach (RAGTAG) for test scenario generation using Retrieval-Augmented Generation (RAG) with Large Language Models (LLMs). RAG allows the integration of specific domain knowledge with LLMs' generation capabilities. We evaluate RAGTAG on two industrial projects from Austrian Post with bilingual requirements in German and English. Our results from an interview survey conducted with four experts on five dimensions -- relevance, coverage, correctness, coherence and feasibility, affirm the potential of RAGTAG in automating test scenario generation. Specifically, our results indicate that, despite the difficult task of analyzing bilingual requirements, RAGTAG is able to produce scenarios that are well-aligned with the underlying requirements and provide coverage of different aspects of the intended functionality. The generated scenarios are easily understandable to experts and feasible for testing in the project environment. The overall correctness is deemed satisfactory; however, gaps in capturing exact action sequences and domain nuances remain, underscoring the need for domain expertise when applying LLMs.
Abstract（参考訳）: テストシナリオは、特定のソフトウェア機能を検証するアクションを記述するテストケースの特定のインスタンスである。ソフトウェアが動作している条件と期待される成果を概説することにより、テストシナリオは、ソフトウェア機能が統合された方法でテストされることを保証する。テストシナリオは、エッジケースを含むさまざまな条件下でアプリケーションを体系的にテストするために重要であり、潜在的な問題を特定し、全体的なパフォーマンスと信頼性を保証する。テストシナリオを特定するのは面倒で、ソフトウェア機能と基礎となるドメインを深く理解する必要があります。さらに、時間と予算に制約のある要件エンジニアとテストチームから、相当な努力と投資を必要とします。本稿では,Large Language Models (LLMs) を用いたRetrieval-Augmented Generation (RAG) を用いたテストシナリオ生成のための自動アプローチ(RAGTAG)を提案する。 RAGは、特定のドメイン知識とLLMの生成能力の統合を可能にする。オーストリアポストの2つの産業プロジェクトにおけるRAGTAGの評価を行い,ドイツ語と英語のバイリンガル要件について検討した。テストシナリオの自動生成におけるRAGTAGの可能性を確認するため,5次元の専門家4名を対象に調査を行った。具体的には,両言語要件を解析する難しい作業にもかかわらず,RAGTAGは,基礎となる要件に整合したシナリオを生成し,意図した機能の異なる側面をカバーできることを示す。生成されたシナリオは、専門家にとって容易に理解でき、プロジェクト環境でのテストも可能です。全体的な正しさは満足できると考えられているが、正確なアクションシーケンスとドメインのニュアンスをキャプチャするギャップは残っており、LLMを適用する際にはドメインの専門知識の必要性が強調されている。

関連論文リスト

Text2Scenario: Text-Driven Scenario Generation for Autonomous Driving Test [15.601818101020996]
Text2Scenarioは、ユーザー仕様と密接に一致したシミュレーションテストシナリオを自律的に生成するフレームワークである。結果は、手動のシナリオ構成に必要な労力を伴わない、多様なADスタックの効率的かつ正確な評価である。
論文参考訳（メタデータ） (2025-03-04T07:20:25Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文参考訳（メタデータ） (2024-10-17T01:19:18Z)
Multi-language Unit Test Generation using LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。パイプラインをさまざまなプログラミング言語、特にJavaとPython、そして環境モックを必要とする複雑なソフトウェアに適用する方法を示します。以上の結果から,静的解析によって導かれるLCMベースのテスト生成は,最新のテスト生成技術と競合し,さらに性能も向上することが示された。
論文参考訳（メタデータ） (2024-09-04T21:46:18Z)
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。 3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2024-07-18T00:58:41Z)
Practical, Automated Scenario-based Mobile App Testing [13.52057950260007]
ヒューマンテスタが開発したテストスクリプトは、テストシナリオに集中してビジネスロジックを検討する。モバイルアプリのGUI集約的な機能のため、ヒューマンテスタは常にアプリケーションのGUIを理解して、シナリオのテストスクリプトを整理します。 ScenTestは、ヒューマンプラクティスを模倣し、ドメイン知識をシナリオベースのモバイルアプリテストに統合することで、自動テストを開始する。
論文参考訳（メタデータ） (2024-06-12T15:48:39Z)
A Tool for Test Case Scenarios Generation Using Large Language Models [3.9422957660677476]
この記事では、エピックやハイレベルなユーザストーリーとして、ユーザ要求を生成することに焦点を当てます。 LLMベースのエージェントを使用して、テストケースシナリオの自動生成をエンジニアリングに促す、Webベースのソフトウェアツールを導入している。
論文参考訳（メタデータ） (2024-06-11T07:26:13Z)
ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based Evaluation [48.54271457765236]
大規模言語モデル(LLM)は、人間の価値観と不一致した場合、意図しない、有害なコンテンツも引き出すことができる。現在の評価ベンチマークでは、LLMが人的価値とどの程度うまく一致しているかを評価するために、専門家が設計した文脈シナリオが採用されている。本研究では, LLM エージェントの自律的能力を活用し, 奥行き及び適応的アライメント評価を行う評価フレームワーク ALI-Agent を提案する。
論文参考訳（メタデータ） (2024-05-23T02:57:42Z)
Selene: Pioneering Automated Proof in Software Verification [62.09555413263788]
実世界の産業レベルのマイクロカーネルであるseL4をベースとした,最初のプロジェクトレベルの自動証明ベンチマークであるSeleneを紹介する。 GPT-3.5-turbo や GPT-4 のような先進的な大規模言語モデル (LLM) による実験結果から, 自動証明生成領域における LLM の機能を強調した。
論文参考訳（メタデータ） (2024-01-15T13:08:38Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
LLM for Test Script Generation and Migration: Challenges, Capabilities, and Opportunities [8.504639288314063]
テストスクリプト生成はソフトウェアテストの重要なコンポーネントであり、反復的なテストタスクの効率的かつ信頼性の高い自動化を可能にする。既存の世代のアプローチは、さまざまなデバイス、プラットフォーム、アプリケーション間でテストスクリプトを正確にキャプチャし、再現することの難しさなど、しばしば制限に直面する。本稿では,モバイルアプリケーションテストスクリプト生成分野における大規模言語モデル(LLM)の適用について検討する。
論文参考訳（メタデータ） (2023-09-24T07:58:57Z)
Prioritized Variable-length Test Cases Generation for Finite State Machines [0.09786690381850353]
モデルベーステスト(MBT)は、システムアンダーテストの一部が有限状態マシン(FSM)の特性を持つ場合のテストに有効な手法である。本稿では,これらの要件をすべて満たしたテスト生成戦略を提案する。本論文では,FSMの適用状況に応じて,機能的および非機能的ソフトウェア要件のテストにも適用可能である。
論文参考訳（メタデータ） (2022-03-17T20:16:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。