Fugu-MT 論文翻訳(概要): AI-Driven Test Case Generation from Natural Language Requirements: A Survey of Techniques and Research Gaps

論文の概要: AI-Driven Test Case Generation from Natural Language Requirements: A Survey of Techniques and Research Gaps

arxiv url: http://arxiv.org/abs/2606.06563v1
Date: Thu, 04 Jun 2026 15:07:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.376162
Title: AI-Driven Test Case Generation from Natural Language Requirements: A Survey of Techniques and Research Gaps
Title（参考訳）: 自然言語要求からAI駆動テストケースを生成する - 技術と研究ギャップの調査
Authors: Orimoloye Folorunsho, Hassan Reza,
Abstract要約: ソフトウェアテストは、システムが特定の要件を満たすことを検証するために重要であるが、開発において最も時間がかかり、高価な活動の1つだ。 AI、自然言語処理(NLP)、大規模言語モデル(LLM)の最近の進歩により、パイプラインの自動化はますます実現可能になっている。今回の調査では、自然言語要求からテストケースを生成するためにAIとNLPテクニックが提案されていること、これらのアプローチをサポートするツールとフレームワーク、研究ギャップが残っていること、の4つの研究課題に対処する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Software testing is critical for verifying that systems meet specified requirements, yet remains among the most time-consuming and expensive activities in development. Requirements-based test generation allows test cases to be derived early from requirements artifacts, but generating them directly from natural language is challenging due to inherent ambiguity and imprecision. Recent advances in AI, natural language processing (NLP), and large language models (LLMs) have made automating this pipeline increasingly feasible, while introducing new risks including hallucination, reduced traceability, and inconsistent evaluation. This survey addresses four research questions: what AI and NLP techniques have been proposed for generating test cases from natural language requirements; what tools and frameworks support these approaches; how generated test cases are evaluated; and what research gaps remain. Following Kitchenham and Charters' systematic review guidelines, we searched major scholarly databases spanning 2000-2025 and, after applying strict inclusion criteria, identified 21 primary studies. The literature is organized into three evolutionary eras, revealing that no existing approach simultaneously satisfies six key quality dimensions: automation, ambiguity handling, domain applicability, traceability, evaluation thoroughness, and hallucination control. The survey makes three main contributions: a three-era evolutionary synthesis of AI-based test generation; a six-criteria gap analysis showing no current approach fully addresses all quality dimensions; and four actionable research guidelines targeting hallucination, traceability, complexity sensitivity, and compliance.
Abstract（参考訳）: ソフトウェアテストは、システムが特定の要件を満たすことを検証するために重要であるが、開発において最も時間がかかり、高価な活動の1つだ。要件ベースのテスト生成では、要件アーティファクトからテストケースを早期に生成することが可能だが、自然言語から直接生成することは、固有の曖昧さと不正確さのために難しい。 AI、自然言語処理(NLP)、大規模言語モデル(LLM)の最近の進歩は、このパイプラインの自動化をますます実現し、幻覚、トレーサビリティの低減、一貫性のない評価などの新たなリスクを導入している。今回の調査では、自然言語要求からテストケースを生成するためにAIとNLPテクニックが提案されていること、これらのアプローチをサポートするツールとフレームワーク、生成されたテストケースの評価方法、研究ギャップが残っていること、の4つの研究課題に対処する。キッチェンハムとチャーターズの体系的レビューガイドラインに従って,2000～2025年にわたる主要な学術データベースを探索し,厳格な包含基準を適用した結果,21の初等研究が同定された。文献は3つの進化の時代に分けられており、既存のアプローチは、自動化、あいまいさ処理、ドメイン適用性、トレーサビリティ、評価の徹底、幻覚制御の6つの重要な品質次元を同時に満たさない。調査では、AIベースのテスト生成の3年間の進化的合成、現在のアプローチがすべての品質次元に完全に対応していない6つの基準ギャップ分析、幻覚、トレーサビリティ、複雑性感受性、コンプライアンスを対象とする4つの実行可能な研究ガイドラインが主な貢献である。

関連論文リスト

AI for Auto-Research: Roadmap & User Guide [107.0834449839233]
研究ライフサイクル全体にわたってAIをエンドツーエンドに分析する。我々は、信頼できる援助と信頼できない自律性の間に、鋭くステージに依存した境界を特定できる。障害モードを排除するのではなく、より大きな自動化が不明瞭であることが示されています。
論文参考訳（メタデータ） (2026-05-18T17:08:26Z)
AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery [55.70879973230979]
AutoResearchBenchは、自律的な科学文献発見のためのベンチマークである。エージェントWebブラウジングに関する以前のベンチマークと比較すると、AutoResearchBenchは研究指向である。最も強力なLCMでさえ、BrowseCompのような一般的なエージェントによるWebブラウジングベンチマークをほとんど征服したにもかかわらず、Deep Researchでは9.39%、Wide Researchでは9.31%の精度しか達成していない。
論文参考訳（メタデータ） (2026-04-28T06:05:17Z)
The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文参考訳（メタデータ） (2026-02-05T19:00:02Z)
An Investigation on How AI-Generated Responses Affect SoftwareEngineering Surveys [3.183470571353323]
本研究では,大規模言語モデル (LLM) がソフトウェア工学のサーベイでいかに誤用されているかを考察する。我々は2025年にProlificプラットフォームを通じて行われた2回の調査からのデータを分析した。ソフトウェア工学のサーベイにおいて、データの真正性は新たな妥当性の次元として認識される。
論文参考訳（メタデータ） (2025-12-19T11:17:05Z)
Deep Research: A Systematic Survey [118.82795024422722]
Deep Research (DR)は、大規模言語モデルの推論能力と検索エンジンなどの外部ツールを組み合わせることを目的としている。本調査は,深層研究システムの包括的かつ体系的な概要を提示する。
論文参考訳（メタデータ） (2025-11-24T15:28:28Z)
AI-Driven Tools in Modern Software Quality Assurance: An Assessment of Benefits, Challenges, and Future Directions [0.0]
この研究は、現代のAI指向ツールを品質保証プロセスに統合するメリット、課題、および展望を評価することを目的としている。この研究は、AIがQAに変革をもたらす可能性を実証しているが、これらの技術を実装するための戦略的アプローチの重要性を強調している。
論文参考訳（メタデータ） (2025-06-19T20:22:47Z)
Requirements-Driven Automated Software Testing: A Systematic Review [12.953746641112518]
この体系的な文献は、要求入力フォーマット、変換技術、生成されたテストアーティファクト、評価方法、一般的な制限の現状を批判的に検証する。本研究は,機能要件,モデルベース仕様,自然言語フォーマットの優位性に注目した。テストケース、構造化されたテキスト形式、要求カバレッジは一般的だが、完全な自動化は依然として稀である。
論文参考訳（メタデータ） (2025-02-25T23:13:09Z)
How Mature is Requirements Engineering for AI-based Systems? A Systematic Mapping Study on Practices, Challenges, and Future Research Directions [5.6818729232602205]
既存のREメソッドが十分かどうか、あるいはこれらの課題に対処するために新しいメソッドが必要であるかどうかは不明だ。既存のRE4AI研究は主に要件分析と導入に重点を置いており、ほとんどの実践はこれらの分野に適用されている。私たちは、最も一般的な課題として、要件仕様、説明可能性、マシンラーニングエンジニアとエンドユーザのギャップを特定しました。
論文参考訳（メタデータ） (2024-09-11T11:28:16Z)
Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文参考訳（メタデータ） (2023-10-23T18:11:32Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。