Fugu-MT 論文翻訳(概要): Large Language Models for Unit Test Generation: Achievements, Challenges, and the Road Ahead

論文の概要: Large Language Models for Unit Test Generation: Achievements, Challenges, and the Road Ahead

arxiv url: http://arxiv.org/abs/2511.21382v1
Date: Wed, 26 Nov 2025 13:30:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-27 18:37:59.115023
Title: Large Language Models for Unit Test Generation: Achievements, Challenges, and the Road Ahead
Title（参考訳）: 単体テスト生成のための大規模言語モデル:達成、挑戦、道の先
Authors: Bei Chu, Yang Feng, Kui Liu, Zifan Nan, Zhaoqiang Guo, Baowen Xu,
Abstract要約: 単体テストは、ソフトウェアの検証には不可欠だが、面倒なテクニックである。大規模言語モデル(LLM)は、コードセマンティクスとプログラミングパターンに関するデータ駆動の知識を活用することで、この制限に対処する。このフレームワークは、コアジェネレーティブ戦略と一連の拡張テクニックに関する文献を分析します。
参考スコア（独自算出の注目度）: 15.43943391801509
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unit testing is an essential yet laborious technique for verifying software and mitigating regression risks. Although classic automated methods effectively explore program structures, they often lack the semantic information required to produce realistic inputs and assertions. Large Language Models (LLMs) address this limitation by utilizing by leveraging their data-driven knowledge of code semantics and programming patterns. To analyze the state of the art in this domain, we conducted a systematic literature review of 115 publications published between May 2021 and August 2025. We propose a unified taxonomy based on the unit test generation lifecycle that treats LLMs as stochastic generators requiring systematic engineering constraints. This framework analyzes the literature regarding core generative strategies and a set of enhancement techniques ranging from pre-generation context enrichment to post-generation quality assurance. Our analysis reveals that prompt engineering has emerged as the dominant utilization strategy and accounts for 89% of the studies due to its flexibility. We find that iterative validation and repair loops have become the standard mechanism to ensure robust usability and lead to significant improvements in compilation and execution pass rates. However, critical challenges remain regarding the weak fault detection capabilities of generated tests and the lack of standardized evaluation benchmarks. We conclude with a roadmap for future research that emphasizes the progression towards autonomous testing agents and hybrid systems combining LLMs with traditional software engineering tools. This survey provides researchers and practitioners with a comprehensive perspective on converting the potential of LLMs into industrial-grade testing solutions.
Abstract（参考訳）: 単体テストは、ソフトウェアを検証し、回帰リスクを軽減するために必要不可欠なテクニックです。古典的な自動手法はプログラム構造を効果的に探索するが、現実的な入力やアサーションを生成するのに必要な意味情報を欠くことが多い。大規模言語モデル(LLM)は、コードセマンティクスとプログラミングパターンに関するデータ駆動の知識を活用することで、この制限に対処する。本研究では,2021年5月から2025年8月までに発行された115冊の論文の体系的な文献レビューを行った。本稿では,LLMを体系的な工学的制約を必要とする確率的ジェネレータとして扱う,単体テスト生成ライフサイクルに基づく統一分類法を提案する。本フレームワークは, コア生成戦略に関する文献と, プレジェネレーション・コンテクスト・エンリッチメントからポストジェネレーション・クオリティ・アシュアランスまで, 一連の拡張技術について分析する。分析の結果,迅速なエンジニアリングが支配的な利用戦略として現れ,その柔軟性から研究の89%を占めることが明らかとなった。繰り返しバリデーションと修復ループが、堅牢なユーザビリティを確保し、コンパイルと実行のパス率を大幅に改善する標準的なメカニズムになっていることが分かりました。しかし、生成されたテストの弱い故障検出能力と標準化された評価ベンチマークの欠如に関して、重要な課題が残っている。我々は、LSMと従来のソフトウェアエンジニアリングツールを組み合わせた自律テストエージェントとハイブリッドシステムへの進歩を強調する将来の研究のロードマップで締めくくります。この調査は、LLMの可能性を産業レベルのテストソリューションに変換するための総合的な視点を提供する。

関連論文リスト

Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey [59.3507264893654]
課題解決は、現実世界の開発に不可欠な複雑なソフトウェアエンジニアリングタスクです。 SWE-benchのようなベンチマークでは、このタスクは大規模言語モデルでは極めて困難であることが判明した。本稿では,この新興領域を体系的に調査する。
論文参考訳（メタデータ） (2026-01-15T18:55:03Z)
SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文参考訳（メタデータ） (2025-11-29T09:18:39Z)
A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文参考訳（メタデータ） (2025-10-10T06:56:50Z)
AI-Driven Tools in Modern Software Quality Assurance: An Assessment of Benefits, Challenges, and Future Directions [0.0]
この研究は、現代のAI指向ツールを品質保証プロセスに統合するメリット、課題、および展望を評価することを目的としている。この研究は、AIがQAに変革をもたらす可能性を実証しているが、これらの技術を実装するための戦略的アプローチの重要性を強調している。
論文参考訳（メタデータ） (2025-06-19T20:22:47Z)
Tracking the Moving Target: A Framework for Continuous Evaluation of LLM Test Generation in Industry [0.5735035463793009]
大きな言語モデル(LLM)は、テスト生成を含むソフトウェアテストタスクを自動化する大きな可能性を示しています。彼らの急速な進化は、DevSecOpsを実装する企業にとって重要な課題である。本研究は,産業環境下での商業LLMテストジェネレータの連続評価のための測定フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-26T18:08:13Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Vulnerability Detection: From Formal Verification to Large Language Models and Hybrid Approaches: A Comprehensive Overview [3.135279672650891]
本稿では,最先端のソフトウェアテストと検証に焦点をあてる。古典的な形式的手法、LLMに基づく分析、新しいハイブリッド手法の3つの主要なアプローチに焦点を当てている。 LLMによるインサイトとフォーマルリガーを統合することで,ソフトウェア検証の有効性とスケーラビリティが向上するかどうかを解析する。
論文参考訳（メタデータ） (2025-03-13T18:22:22Z)
Requirements-Driven Automated Software Testing: A Systematic Review [12.953746641112518]
この体系的な文献は、要求入力フォーマット、変換技術、生成されたテストアーティファクト、評価方法、一般的な制限の現状を批判的に検証する。本研究は,機能要件,モデルベース仕様,自然言語フォーマットの優位性に注目した。テストケース、構造化されたテキスト形式、要求カバレッジは一般的だが、完全な自動化は依然として稀である。
論文参考訳（メタデータ） (2025-02-25T23:13:09Z)
Large Language Model for Qualitative Research -- A Systematic Mapping Study [3.302912592091359]
先進的な生成AIを駆使した大規模言語モデル(LLM)がトランスフォーメーションツールとして登場した。本研究は, LLMを用いた定性的研究に関する文献を体系的にマッピングする。 LLMは様々な分野にまたがって利用されており、プロセスの自動化の可能性を示している。
論文参考訳（メタデータ） (2024-11-18T21:28:00Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。