論文の概要: Towards More Effective Fault Detection in LLM-Based Unit Test Generation
- arxiv url: http://arxiv.org/abs/2506.02954v1
- Date: Tue, 03 Jun 2025 14:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.427142
- Title: Towards More Effective Fault Detection in LLM-Based Unit Test Generation
- Title(参考訳): LLMを用いたユニット・テスト・ジェネレーションにおけるより効果的な故障検出に向けて
- Authors: Guancheng Wang, Qinghua Xu, Lionel C. Briand, Kui Liu,
- Abstract要約: 変異誘導型LLMに基づくテスト生成手法であるMUTGENを提案する。
MUTGENは変異スコアにおいてEvoSuiteとバニラプロンプトベースの戦略の両方を著しく上回っている。
- 参考スコア(独自算出の注目度): 9.938579776227506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unit tests play a vital role in uncovering potential faults in software. While tools like EvoSuite focus on maximizing code coverage, recent advances in large language models (LLMs) have shifted attention toward LLM-based test generation. However, code coverage metrics -- such as line and branch coverage -- remain overly emphasized in reported research, despite being weak indicators of a test suite's fault-detection capability. In contrast, \textit{mutation score} offers a more reliable and stringent measure, as demonstrated in our findings where some test suites achieve 100\% coverage but only 4\% mutation score. Although a few studies consider mutation score, the effectiveness of LLMs in killing mutants remains underexplored. In this paper, we propose MUTGEN, a mutation-guided, LLM-based test generation approach that incorporates mutation feedback directly into the prompt. Evaluated on 204 subjects from two benchmarks, MUTGEN significantly outperforms both EvoSuite and vanilla prompt-based strategies in terms of mutation score. Furthermore, MUTGEN introduces an iterative generation mechanism that pushes the limits of LLMs in killing additional mutants. Our study also provide insights into the limitations of LLM-based generation, analyzing the reasons for live and uncovered mutants, and the impact of different mutation operators on generation effectiveness.
- Abstract(参考訳): ユニットテストは、ソフトウェアの潜在的な欠陥を明らかにする上で重要な役割を担います。
EvoSuiteのようなツールはコードカバレッジの最大化に重点を置いているが、大規模言語モデル(LLM)の最近の進歩は、LLMベースのテスト生成に注意を向けている。
しかしながら、ラインやブランチのカバレッジといったコードカバレッジのメトリクスは、テストスイートの障害検出能力の弱い指標であるにもかかわらず、報告された調査で過度に強調されている。
対照的に、‘textit{mutation score} はより信頼性が高く、より厳密な尺度を提供する。
突然変異のスコアを考慮に入れている研究はいくつかあるが、変異体を殺す上でのLSMの有効性は未解明のままである。
本稿では,変異フィードバックを直接プロンプトに組み込む変異誘導型LCMベースのテスト生成手法であるMUTGENを提案する。
2つのベンチマークから204名の被験者を評価したところ、MUTGENはEvoSuiteとバニラのプロンプトベースの戦略の両方において、突然変異スコアにおいて有意に優れていた。
さらに、MUTGENはLLMの限界を押し上げる反復生成機構を導入し、新たな変異体を殺傷する。
また,本研究は, LLM による突然変異発生の限界, 生・未発見変異の理由, および変異オペレータの変異が生成効率に与える影響について考察した。
関連論文リスト
- PRIMG : Efficient LLM-driven Test Generation Using Mutant Prioritization [0.0]
PRIMG(Prioritization and Refinement Integrated Mutation-driven Generation)は、Solidityスマートコントラクトのためのインクリメンタルで適応的なテストケース生成のための新しいフレームワークである。
PRIMGは突然変異優先順位付けモジュールを統合し、ミュータント置換グラフに基づいてトレーニングされた機械学習モデルを用いて、生き残ったミュータントの有用性を予測する。
優先順位付けモジュールはランダムなミュータント選択を一貫して上回り、計算労力を削減したハイインパクトテストの生成を可能にした。
論文 参考訳(メタデータ) (2025-05-08T18:30:22Z) - Mutation Testing via Iterative Large Language Model-Driven Scientific Debugging [10.334617290353192]
我々は,Large Language Models (LLM) が変異体に対するテストを生成する上で,科学的計算が有効かどうかを評価する。
LLMは、より良い障害検出とカバレッジを持つテストを生成する上で、Pynguinを一貫して上回っている。
重要なことは、テストケースの反復的な改善が高品質なテストスイートを実現する上で重要であるということだ。
論文 参考訳(メタデータ) (2025-03-11T08:47:13Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - An Exploratory Study on Using Large Language Models for Mutation Testing [32.91472707292504]
LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。
本稿では, LLMのユーザビリティ, 障害検出可能性, および実際のバグとの関係について, 効果的な突然変異生成における性能について検討する。
既存のアプローチと比較して、LSMは実際のバグに近い振る舞いをする、より多様な突然変異を生成する。
論文 参考訳(メタデータ) (2024-06-14T08:49:41Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。