Fugu-MT 論文翻訳(概要): LLMCFG-TGen: Using LLM-Generated Control Flow Graphs to Automatically Create Test Cases from Use Cases

論文の概要: LLMCFG-TGen: Using LLM-Generated Control Flow Graphs to Automatically Create Test Cases from Use Cases

arxiv url: http://arxiv.org/abs/2512.06401v1
Date: Sat, 06 Dec 2025 11:19:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-09 22:03:54.344515
Title: LLMCFG-TGen: Using LLM-Generated Control Flow Graphs to Automatically Create Test Cases from Use Cases
Title（参考訳）: LLMCFG-TGen: LLM生成制御フローグラフを用いたテストケースの自動作成
Authors: Zhenzhen Yang, Chenhui Cui, Tao Li, Rubing Huang, Nan Niu, Dave Towey, Shikai Guo,
Abstract要約: 適切なテストケース生成は、ソフトウェアテストにおいて重要である。ユースケース記述は、機能的振る舞いと相互作用フローを構造化形式でキャプチャする一般的な方法である。 NLのユースケース記述からテストケースを自動的に生成する手法を提案する。
参考スコア（独自算出の注目度）: 11.173694789846435
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Appropriate test case generation is critical in software testing, significantly impacting the quality of the testing. Requirements-Based Test Generation (RBTG) derives test cases from software requirements, aiming to verify whether or not the system's behaviors align with user needs and expectations. Requirements are often documented in Natural Language (NL), with use-case descriptions being a popular method for capturing functional behaviors and interaction flows in a structured form. Large Language Models (LLMs) have shown strong potential for automating test generation directly from NL requirements. However, current LLM-based approaches may not provide comprehensive, non-redundant coverage. They may also fail to capture complex conditional logic in requirements, resulting in incomplete test cases. We propose a new approach that automatically generates test cases from NL use-case descriptions, called Test Generation based on LLM-generated Control Flow Graphs (LLMCFG-TGen). LLMCFG-TGen comprises three main steps: (1) An LLM transforms a use case into a structured CFG that encapsulates all potential branches; (2) The generated CFG is explored, and all complete execution paths are enumerated; and (3) The execution paths are then used to generate the test cases. To evaluate our proposed approach, we conducted a series of experiments. The results show that LLMs can effectively construct well-structured CFGs from NL use cases. Compared with the baseline methods, LLMCFG-TGen achieves full path coverage, improving completeness and ensuring clear and accurate test cases. Practitioner assessments confirm that LLMCFG-TGen produces logically consistent and comprehensive test cases, while substantially reducing manual effort. The findings suggest that coupling LLM-based semantic reasoning with structured modeling effectively bridges the gap between NL requirements and systematic test generation.
Abstract（参考訳）: 適切なテストケース生成は、ソフトウェアテストにおいて重要であり、テストの品質に大きな影響を与えます。要件ベースのテスト生成(RBTG)は、システムの振る舞いがユーザのニーズや期待に合致するかどうかを検証することを目的として、ソフトウェア要件からテストケースを導出する。要求はしばしば自然言語(NL)で文書化され、ユースケース記述は機能的な振る舞いや相互作用の流れを構造化形式でキャプチャする一般的な方法である。大規模言語モデル(LLM)は、NL要求から直接テスト生成を自動化する強力な可能性を示している。しかし、現在のLLMベースのアプローチは、包括的で非冗長なカバレッジを提供しないかもしれない。また、複雑な条件論理の要求を捉えることができず、結果として不完全なテストケースが発生する。 LLM生成制御フローグラフ(LLMCFG-TGen)に基づくテスト生成と呼ばれる,NLのユースケース記述からテストケースを自動的に生成する手法を提案する。 LLMCFG-TGenは、(1) LLMがユースケースをすべての潜在的ブランチをカプセル化した構造化CFGに変換し、(2)生成されたCFGを探索し、すべての完全な実行パスを列挙し、(3) 実行パスを使用してテストケースを生成する。提案手法を評価するために,我々は一連の実験を行った。その結果, LLM はNL のユースケースから, 十分に構造化された CFG を効果的に構築できることが示唆された。 LLMCFG-TGenはベースライン法と比較して完全なパスカバレッジを実現し、完全性を改善し、明確で正確なテストケースを確実にする。 LLMCFG-TGenは論理的に一貫した総合的なテストケースを生成し、手作業を大幅に削減する。その結果,LLMに基づく意味推論と構造化モデリングを結合させることで,NL要求と系統的テスト生成のギャップを効果的に埋めることが示唆された。

関連論文リスト

On the Soundness and Consistency of LLM Agents for Executing Test Cases Written in Natural Language [4.290931412096985]
グラフィカルユーザインタフェース(GUI)アプリケーションを検証するための自然言語(NL)テストケースの利用は、将来性のある方向として現れつつある。大規模言語モデル(LLM)の最近の進歩は、LLMエージェントによるNLテストケースの直接実行の可能性を広げている。本稿では,NLテストケースの不協和性とテストケース実行の整合性に与える影響について検討する。
論文参考訳（メタデータ） (2025-09-23T15:20:40Z)
Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文参考訳（メタデータ） (2025-08-28T13:00:28Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
TestWeaver: Execution-aware, Feedback-driven Regression Testing Generation with Large Language Models [5.871736617580623]
回帰テストは、コードの変更が意図せずに既存の機能を壊さないようにする。大規模言語モデル(LLM)の最近の進歩は、回帰テストのためのテスト生成を自動化することを約束している。テスト生成をより効率的にガイドするために、軽量なプログラム分析を統合する新しいアプローチであるTestWeaverを提案する。
論文参考訳（メタデータ） (2025-08-02T08:13:02Z)
Self-Steering Language Models [113.96916935955842]
DisCIPL は "self-steering" 言語モデル (LM) の手法である。 DisCIPLは、Followerモデルの集団によって実行されるタスク固有の推論プログラムを生成する。我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文参考訳（メタデータ） (2025-04-09T17:54:22Z)
A Systematic Approach for Assessing Large Language Models' Test Case Generation Capability [0.8287206589886879]
大規模言語モデル (LLM) を評価するために,制御フロー構造と可変利用構成 (GBCV) から生成したベンチマークを提案する。基本的な制御フロー構造と変数使用量を活用することで、GBCVは、単純なプログラムから複雑なプログラムの範囲を作成する柔軟なフレームワークを提供する。以上の結果から,GPT-4oは複雑なプログラム構造において優れた性能を示し,全てのモデルが単純な条件下で境界値を効果的に検出するが,算術計算では問題に直面することが示唆された。
論文参考訳（メタデータ） (2025-02-05T03:51:44Z)
Toward Automated Validation of Language Model Synthesized Test Cases using Semantic Entropy [0.5057850174013127]
現代の大規模言語モデル(LLM)ベースのプログラミングエージェントは、しばしば、生成されたコードを洗練するためにテスト実行フィードバックに依存する。本稿では,LLMが生成したテストケースの自動検証にセマンティックエントロピーを利用する新しいフレームワークVALTESTを紹介する。 VALTESTはテストの妥当性を最大29%向上し、パス@1スコアの大幅な増加によって証明されたコード生成のパフォーマンスが向上することを示している。
論文参考訳（メタデータ） (2024-11-13T00:07:32Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Adaptable Logical Control for Large Language Models [68.27725600175013]
Ctrl-Gは、推論時にモデル生成のトラクタブルでフレキシブルな制御を容易にする適応可能なフレームワークである。 TULU2-7Bモデルに適用したCtrl-Gは、インタラクティブテキスト編集のタスクにおいて、GPT3.5とGPT4より優れていることを示す。
論文参考訳（メタデータ） (2024-06-19T23:47:59Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。 SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文参考訳（メタデータ） (2024-01-31T18:21:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。