論文の概要: Large Language Models for Unit Test Generation: Achievements, Challenges, and the Road Ahead
- arxiv url: http://arxiv.org/abs/2511.21382v1
- Date: Wed, 26 Nov 2025 13:30:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.115023
- Title: Large Language Models for Unit Test Generation: Achievements, Challenges, and the Road Ahead
- Title(参考訳): 単体テスト生成のための大規模言語モデル:達成、挑戦、道の先
- Authors: Bei Chu, Yang Feng, Kui Liu, Zifan Nan, Zhaoqiang Guo, Baowen Xu,
- Abstract要約: 単体テストは、ソフトウェアの検証には不可欠だが、面倒なテクニックである。
大規模言語モデル(LLM)は、コードセマンティクスとプログラミングパターンに関するデータ駆動の知識を活用することで、この制限に対処する。
このフレームワークは、コアジェネレーティブ戦略と一連の拡張テクニックに関する文献を分析します。
- 参考スコア(独自算出の注目度): 15.43943391801509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unit testing is an essential yet laborious technique for verifying software and mitigating regression risks. Although classic automated methods effectively explore program structures, they often lack the semantic information required to produce realistic inputs and assertions. Large Language Models (LLMs) address this limitation by utilizing by leveraging their data-driven knowledge of code semantics and programming patterns. To analyze the state of the art in this domain, we conducted a systematic literature review of 115 publications published between May 2021 and August 2025. We propose a unified taxonomy based on the unit test generation lifecycle that treats LLMs as stochastic generators requiring systematic engineering constraints. This framework analyzes the literature regarding core generative strategies and a set of enhancement techniques ranging from pre-generation context enrichment to post-generation quality assurance. Our analysis reveals that prompt engineering has emerged as the dominant utilization strategy and accounts for 89% of the studies due to its flexibility. We find that iterative validation and repair loops have become the standard mechanism to ensure robust usability and lead to significant improvements in compilation and execution pass rates. However, critical challenges remain regarding the weak fault detection capabilities of generated tests and the lack of standardized evaluation benchmarks. We conclude with a roadmap for future research that emphasizes the progression towards autonomous testing agents and hybrid systems combining LLMs with traditional software engineering tools. This survey provides researchers and practitioners with a comprehensive perspective on converting the potential of LLMs into industrial-grade testing solutions.
- Abstract(参考訳): 単体テストは、ソフトウェアを検証し、回帰リスクを軽減するために必要不可欠なテクニックです。
古典的な自動手法はプログラム構造を効果的に探索するが、現実的な入力やアサーションを生成するのに必要な意味情報を欠くことが多い。
大規模言語モデル(LLM)は、コードセマンティクスとプログラミングパターンに関するデータ駆動の知識を活用することで、この制限に対処する。
本研究では,2021年5月から2025年8月までに発行された115冊の論文の体系的な文献レビューを行った。
本稿では,LLMを体系的な工学的制約を必要とする確率的ジェネレータとして扱う,単体テスト生成ライフサイクルに基づく統一分類法を提案する。
本フレームワークは, コア生成戦略に関する文献と, プレジェネレーション・コンテクスト・エンリッチメントからポストジェネレーション・クオリティ・アシュアランスまで, 一連の拡張技術について分析する。
分析の結果,迅速なエンジニアリングが支配的な利用戦略として現れ,その柔軟性から研究の89%を占めることが明らかとなった。
繰り返しバリデーションと修復ループが、堅牢なユーザビリティを確保し、コンパイルと実行のパス率を大幅に改善する標準的なメカニズムになっていることが分かりました。
しかし、生成されたテストの弱い故障検出能力と標準化された評価ベンチマークの欠如に関して、重要な課題が残っている。
我々は、LSMと従来のソフトウェアエンジニアリングツールを組み合わせた自律テストエージェントとハイブリッドシステムへの進歩を強調する将来の研究のロードマップで締めくくります。
この調査は、LLMの可能性を産業レベルのテストソリューションに変換するための総合的な視点を提供する。
関連論文リスト
- A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - AI-Driven Tools in Modern Software Quality Assurance: An Assessment of Benefits, Challenges, and Future Directions [0.0]
この研究は、現代のAI指向ツールを品質保証プロセスに統合するメリット、課題、および展望を評価することを目的としている。
この研究は、AIがQAに変革をもたらす可能性を実証しているが、これらの技術を実装するための戦略的アプローチの重要性を強調している。
論文 参考訳(メタデータ) (2025-06-19T20:22:47Z) - Tracking the Moving Target: A Framework for Continuous Evaluation of LLM Test Generation in Industry [0.5735035463793009]
大きな言語モデル(LLM)は、テスト生成を含むソフトウェアテストタスクを自動化する大きな可能性を示しています。
彼らの急速な進化は、DevSecOpsを実装する企業にとって重要な課題である。
本研究は,産業環境下での商業LLMテストジェネレータの連続評価のための測定フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-26T18:08:13Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Requirements-Driven Automated Software Testing: A Systematic Review [12.953746641112518]
この体系的な文献は、要求入力フォーマット、変換技術、生成されたテストアーティファクト、評価方法、一般的な制限の現状を批判的に検証する。
本研究は,機能要件,モデルベース仕様,自然言語フォーマットの優位性に注目した。
テストケース、構造化されたテキスト形式、要求カバレッジは一般的だが、完全な自動化は依然として稀である。
論文 参考訳(メタデータ) (2025-02-25T23:13:09Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。