Fugu-MT 論文翻訳(概要): System Test Case Design from Requirements Specifications: Insights and Challenges of Using ChatGPT

論文の概要: System Test Case Design from Requirements Specifications: Insights and Challenges of Using ChatGPT

arxiv url: http://arxiv.org/abs/2412.03693v1
Date: Wed, 04 Dec 2024 20:12:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:01.758529
Title: System Test Case Design from Requirements Specifications: Insights and Challenges of Using ChatGPT
Title（参考訳）: 要件仕様からのシステムテストケース設計:ChatGPTの活用の展望と課題
Authors: Shreya Bhatia, Tarushi Gandhi, Dhruv Kumar, Pankaj Jalote,
Abstract要約: 本稿では,Large Language Models (LLMs) を用いてソフトウェア要件仕様 (SRS) 文書からテストケース設計を作成することの有効性について検討する。生成したテストケースの約87%が有効で、残りの13%は適用不可能か冗長かのどちらかでした。
参考スコア（独自算出の注目度）: 1.9282110216621835
License: http://creativecommons.org/licenses/by/4.0/
Abstract: System testing is essential in any software development project to ensure that the final products meet the requirements. Creating comprehensive test cases for system testing from requirements is often challenging and time-consuming. This paper explores the effectiveness of using Large Language Models (LLMs) to generate test case designs from Software Requirements Specification (SRS) documents. In this study, we collected the SRS documents of five software engineering projects containing functional and non-functional requirements, which were implemented, tested, and delivered by respective developer teams. For generating test case designs, we used ChatGPT-4o Turbo model. We employed prompt-chaining, starting with an initial context-setting prompt, followed by prompts to generate test cases for each use case. We assessed the quality of the generated test case designs through feedback from the same developer teams as mentioned above. Our experiments show that about 87 percent of the generated test cases were valid, with the remaining 13 percent either not applicable or redundant. Notably, 15 percent of the valid test cases were previously not considered by developers in their testing. We also tasked ChatGPT with identifying redundant test cases, which were subsequently validated by the respective developers to identify false positives and to uncover any redundant test cases that may have been missed by the developers themselves. This study highlights the potential of leveraging LLMs for test generation from the Requirements Specification document and also for assisting developers in quickly identifying and addressing redundancies, ultimately improving test suite quality and efficiency of the testing procedure.
Abstract（参考訳）: 最終製品が要件を満たすことを保証するため、どんなソフトウェア開発プロジェクトでもシステムテストは不可欠です。要件からシステムテストの包括的なテストケースを作成することは、しばしば困難で時間を要する。本稿では,Large Language Models (LLMs) を用いてソフトウェア要件仕様 (SRS) 文書からテストケース設計を作成することの有効性について検討する。本研究では,機能要件と非機能要件を含む5つのソフトウェアエンジニアリングプロジェクトのSRS資料を収集し,各開発チームが実施,テスト,提供を行った。テストケースモデルの作成にはChatGPT-4o Turboモデルを用いた。最初はコンテキスト設定プロンプトから始まり、続いてユースケース毎にテストケースを生成するプロンプトを採用しました。上記のように、同じ開発者チームからのフィードバックを通じて、生成されたテストケース設計の品質を評価しました。実験の結果,生成したテストケースの約87%が有効であり,残りの13%は適用不可能か冗長かのどちらかであった。特に、有効なテストケースの15%は、これまで開発者がテストで考慮していなかった。また、我々はChatGPTに冗長なテストケースの特定を任せたが、これはその後、各開発者が偽陽性を識別し、開発者自身によって見逃された可能性のある冗長なテストケースを明らかにするために検証された。本研究は,要件仕様書からテスト生成にLLMを活用する可能性や,冗長性の迅速な識別と対処を支援すること,最終的にはテストスイートの品質とテスト手順の効率を向上する可能性を強調した。

関連論文リスト

Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文参考訳（メタデータ） (2025-07-03T17:35:31Z)
Acceptance Test Generation with Large Language Models: An Industrial Case Study [0.7874708385247353]
大規模言語モデル(LLM)を利用したアシスタントは、プログラムコードや単体テストの生成にますます利用されている。本稿では,2段階のプロセスでWebアプリケーションの実行可能受け入れテストを生成するLLMについて検討する。この2段階のアプローチは、受け入れテスト駆動開発をサポートし、テスターコントロールを強化し、テスト品質を向上させる。
論文参考訳（メタデータ） (2025-04-09T19:33:38Z)
Automatic High-Level Test Case Generation using Large Language Models [1.8136446064778242]
主な課題は、テストスクリプトを書くのではなく、テスト作業とビジネス要件の整合性です。我々は、高レベルのテストケースを生成するためのトレーニング/ファインチューンモデルを構築するユースケースデータセットを構築した。当社の積極的なアプローチは要件テストのアライメントを強化し,早期テストケース生成を容易にする。
論文参考訳（メタデータ） (2025-03-23T09:14:41Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
Historical Test-time Prompt Tuning for Vision Foundation Models [99.96912440427192]
HisTPTは、学習したテストサンプルの有用な知識を記憶する、履歴的テストタイムプロンプトチューニング技術である。 HisTPTは、異なる視覚認識タスクを処理しながら、一貫した優れたプロンプトチューニング性能を達成する。
論文参考訳（メタデータ） (2024-10-27T06:03:15Z)
Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。 UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文参考訳（メタデータ） (2024-08-21T15:35:34Z)
Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。 TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文参考訳（メタデータ） (2024-02-09T00:34:39Z)
Automated Test Case Repair Using Language Models [0.5708902722746041]
欠陥のないテストケースは、テストスイートの品質を低下させ、ソフトウェア開発プロセスを破壊します。テストケースの自動修復に事前訓練されたコード言語モデルを活用する新しいアプローチであるTaRGetを提案する。 TaRGetは、テスト修復を言語翻訳タスクとして扱い、言語モデルを微調整するために2段階のプロセスを使用する。
論文参考訳（メタデータ） (2024-01-12T18:56:57Z)
Towards General Error Diagnosis via Behavioral Testing in Machine Translation [48.108393938462974]
本稿では,機械翻訳(MT)システムの動作試験を行うための新しい枠組みを提案する。 BTPGBTの中核となる考え方は、新しいバイリンガル翻訳ペア生成アプローチを採用することである。様々なMTシステムの実験結果から,BTPGBTは包括的かつ正確な行動検査結果を提供できることが示された。
論文参考訳（メタデータ） (2023-10-20T09:06:41Z)
Generating and Evaluating Tests for K-12 Students with Language Model Simulations: A Case Study on Sentence Reading Efficiency [45.6224547703717]
本研究は,学生の読解能力の経時的評価に用いるサイレント文読解効率の試験に焦点を当てた。本研究では,従来の学生が未確認項目に対してどのように反応したかをシミュレートするために,大規模言語モデル(LLM)を微調整することを提案する。生成したテストは,クラウドワーカーの反応に基づいて,元のテストの難易度と信頼性に密接に対応していることを示す。
論文参考訳（メタデータ） (2023-10-10T17:59:51Z)
Automatic Generation of Test Cases based on Bug Reports: a Feasibility Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文参考訳（メタデータ） (2023-10-10T05:30:12Z)
A multi-case study of agile requirements engineering and the use of test cases as requirements [5.71126361766062]
テストケースは一般的に要件と見なされ、詳細な要件はテストケースとして文書化されます。要件としてテストケースを使用することは、要件の抽出、検証、検証、管理において、メリットと課題の両方をもたらします。テストケースを要件として使用するプラクティスの特定された変種は、アジャイル要件エンジニアリングの詳細な調査に使用することができる。
論文参考訳（メタデータ） (2023-08-22T19:13:45Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)
Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。 CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文参考訳（メタデータ） (2020-05-08T15:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。