論文の概要: How well LLM-based test generation techniques perform with newer LLM versions?
- arxiv url: http://arxiv.org/abs/2601.09695v1
- Date: Wed, 14 Jan 2026 18:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.506505
- Title: How well LLM-based test generation techniques perform with newer LLM versions?
- Title(参考訳): LLMベースのテスト生成技術は、より新しいLLMバージョンでどの程度うまく機能するか?
- Authors: Michael Konstantinou, Renzo Degiovanni, Mike Papadakis,
- Abstract要約: LLMのアプローチは、すべてのテスト有効性指標において、従来の最先端のアプローチよりも優れていることを示す。
テスト生成がより効率的であるプログラムクラスをまずターゲットとし,LLM要求数を削減する方法を提案する。
- 参考スコア(独自算出の注目度): 5.763923049832854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of Large Language Models (LLMs) has strongly impacted software engineering, leading to a growing number of studies on automated unit test generation. However, the standalone use of LLMs without post-processing has proven insufficient, often producing tests that fail to compile or achieve high coverage. Several techniques have been proposed to address these issues, reporting improvements in test compilation and coverage. While important, LLM-based test generation techniques have been evaluated against relatively weak baselines (for todays' standards), i.e., old LLM versions and relatively weak prompts, which may exacerbate the performance contribution of the approaches. In other words, stronger (newer) LLMs may obviate any advantage these techniques bring. We investigate this issue by replicating four state-of-the-art LLM-based test generation tools, HITS, SymPrompt, TestSpark, and CoverUp that include engineering components aimed at guiding the test generation process through compilation and execution feedback, and evaluate their relative effectiveness and efficiency over a plain LLM test generation method. We integrate current LLM versions in all approaches and run an experiment on 393 classes and 3,657 methods. Our results show that the plain LLM approach can outperform previous state-of-the-art approaches in all test effectiveness metrics we used: line coverage (by 17.72%), branch coverage (by 19.80%) and mutation score (by 20.92%), and it does so at a comparable cost (LLM queries). We also observe that the granularity at which the plain LLM is applied has a significant impact on the cost. We therefore propose targeting first the program classes, where test generation is more efficient, and then the uncovered methods to reduce the number of LLM requests. This strategy achieves comparable (slightly higher) effectiveness while requiring about 20% fewer LLM requests.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進化は、ソフトウェア工学に強く影響を与え、自動ユニットテスト生成に関する研究が増えている。
しかし、後処理なしでのLCMのスタンドアロン使用は不十分であることが証明され、多くの場合、コンパイルに失敗したり、高いカバレッジを達成できなかったテストを生成する。
これらの問題に対処するために、テストコンパイルとカバレッジの改善を報告するいくつかのテクニックが提案されている。
重要なことはあるものの、LLMベースのテスト生成技術は(今日の標準では)比較的弱いベースライン、すなわち古いLLMバージョンと比較的弱いプロンプトに対して評価され、アプローチのパフォーマンスが悪化する可能性がある。
言い換えれば、より強い(より新しい)LSMは、これらの技術がもたらす利点を損なう可能性がある。
本研究では, HITS, SymPrompt, TestSpark, CoverUpの4つの最先端LCMベースのテスト生成ツールを複製し, コンパイルおよび実行フィードバックによるテスト生成プロセスの誘導を目的とした工学的コンポーネントを含め, その相対的有効性と効率を評価した。
我々は現在のLLMバージョンをすべてのアプローチに統合し、393のクラスと3,657のメソッドで実験を行う。
その結果,LLMのアプローチは,行カバレッジ(17.72%),ブランチカバレッジ(19.80%),突然変異スコア(20.92%),など,これまで使用したすべてのテスト効率指標において,従来と同等のコスト(LLMクエリ)で,従来手法のアプローチよりも優れていることがわかった。
また,LLMが適用される粒度がコストに大きな影響を与えることも確認した。
そこで我々は,テスト生成がより効率的であるプログラムクラスをまずターゲットとし,LLM要求数を削減する方法を提案する。
この戦略は、LLM要求を約20%削減しながら、同等(わずかに高い)効果を達成する。
関連論文リスト
- PALM: Synergizing Program Analysis and LLMs to Enhance Rust Unit Test Coverage [14.702182387149547]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。
PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。
このアプローチを実装し、それを15のオープンソースのRustクラッドで評価します。
論文 参考訳(メタデータ) (2025-06-10T17:21:21Z) - ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - HITS: High-coverage LLM-based Unit Test Generation via Method Slicing [37.43624865049592]
大規模言語モデル(LLM)は、Javaプロジェクトの単体テストの生成においてうまく振る舞っている。
しかし、プロジェクト内の複雑な焦点メソッドをカバーするパフォーマンスは貧弱である。
そこで本研究では, 焦点メソッドをスライスに分解し, LLMに対してスライス毎にテストケーススライスを生成することを提案する。
論文 参考訳(メタデータ) (2024-08-21T04:14:26Z) - Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.517293765116307]
ユニットテストはソフトウェアの信頼性に不可欠だが、手動のテスト作成には時間がかかり、しばしば無視される。
本研究は,LLM生成単体テストの大規模評価をクラスレベルで行った最初の大規模評価である。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - Not All Layers of LLMs Are Necessary During Inference [68.88671495401483]
いくつかのタスクにおいて、Large Language Modelsはいくつかの中間層での最終的な出力に匹敵する結果が得られることを示す。
本稿では,入力インスタンスの推論処理を適応的に終了するアルゴリズムAdaInferを提案する。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。