Fugu-MT 論文翻訳(概要): Towards More Effective Fault Detection in LLM-Based Unit Test Generation

論文の概要: Towards More Effective Fault Detection in LLM-Based Unit Test Generation

arxiv url: http://arxiv.org/abs/2506.02954v1
Date: Tue, 03 Jun 2025 14:47:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 01:42:09.427142
Title: Towards More Effective Fault Detection in LLM-Based Unit Test Generation
Title（参考訳）: LLMを用いたユニット・テスト・ジェネレーションにおけるより効果的な故障検出に向けて
Authors: Guancheng Wang, Qinghua Xu, Lionel C. Briand, Kui Liu,
Abstract要約: 変異誘導型LLMに基づくテスト生成手法であるMUTGENを提案する。 MUTGENは変異スコアにおいてEvoSuiteとバニラプロンプトベースの戦略の両方を著しく上回っている。
参考スコア（独自算出の注目度）: 9.938579776227506
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Unit tests play a vital role in uncovering potential faults in software. While tools like EvoSuite focus on maximizing code coverage, recent advances in large language models (LLMs) have shifted attention toward LLM-based test generation. However, code coverage metrics -- such as line and branch coverage -- remain overly emphasized in reported research, despite being weak indicators of a test suite's fault-detection capability. In contrast, \textit{mutation score} offers a more reliable and stringent measure, as demonstrated in our findings where some test suites achieve 100\% coverage but only 4\% mutation score. Although a few studies consider mutation score, the effectiveness of LLMs in killing mutants remains underexplored. In this paper, we propose MUTGEN, a mutation-guided, LLM-based test generation approach that incorporates mutation feedback directly into the prompt. Evaluated on 204 subjects from two benchmarks, MUTGEN significantly outperforms both EvoSuite and vanilla prompt-based strategies in terms of mutation score. Furthermore, MUTGEN introduces an iterative generation mechanism that pushes the limits of LLMs in killing additional mutants. Our study also provide insights into the limitations of LLM-based generation, analyzing the reasons for live and uncovered mutants, and the impact of different mutation operators on generation effectiveness.
Abstract（参考訳）: ユニットテストは、ソフトウェアの潜在的な欠陥を明らかにする上で重要な役割を担います。 EvoSuiteのようなツールはコードカバレッジの最大化に重点を置いているが、大規模言語モデル(LLM)の最近の進歩は、LLMベースのテスト生成に注意を向けている。しかしながら、ラインやブランチのカバレッジといったコードカバレッジのメトリクスは、テストスイートの障害検出能力の弱い指標であるにもかかわらず、報告された調査で過度に強調されている。対照的に、‘textit{mutation score} はより信頼性が高く、より厳密な尺度を提供する。突然変異のスコアを考慮に入れている研究はいくつかあるが、変異体を殺す上でのLSMの有効性は未解明のままである。本稿では,変異フィードバックを直接プロンプトに組み込む変異誘導型LCMベースのテスト生成手法であるMUTGENを提案する。 2つのベンチマークから204名の被験者を評価したところ、MUTGENはEvoSuiteとバニラのプロンプトベースの戦略の両方において、突然変異スコアにおいて有意に優れていた。さらに、MUTGENはLLMの限界を押し上げる反復生成機構を導入し、新たな変異体を殺傷する。また,本研究は, LLM による突然変異発生の限界, 生・未発見変異の理由, および変異オペレータの変異が生成効率に与える影響について考察した。

関連論文リスト

LLAMA: Multi-Feedback Smart Contract Fuzzing Framework with LLM-Guided Seed Generation [56.84049855266145]
進化的突然変異戦略とハイブリッドテスト技術を統合したマルチフィードバックスマートコントラクトファジリングフレームワーク(LLAMA)を提案する。 LLAMAは、91%の命令カバレッジと90%のブランチカバレッジを達成すると同時に、148の既知の脆弱性のうち132が検出される。これらの結果は、現実のスマートコントラクトセキュリティテストシナリオにおけるLAMAの有効性、適応性、実用性を強調している。
論文参考訳（メタデータ） (2025-07-16T09:46:58Z)
PRIMG : Efficient LLM-driven Test Generation Using Mutant Prioritization [0.0]
PRIMG(Prioritization and Refinement Integrated Mutation-driven Generation)は、Solidityスマートコントラクトのためのインクリメンタルで適応的なテストケース生成のための新しいフレームワークである。 PRIMGは突然変異優先順位付けモジュールを統合し、ミュータント置換グラフに基づいてトレーニングされた機械学習モデルを用いて、生き残ったミュータントの有用性を予測する。優先順位付けモジュールはランダムなミュータント選択を一貫して上回り、計算労力を削減したハイインパクトテストの生成を可能にした。
論文参考訳（メタデータ） (2025-05-08T18:30:22Z)
Mutation Testing via Iterative Large Language Model-Driven Scientific Debugging [10.334617290353192]
我々は,Large Language Models (LLM) が変異体に対するテストを生成する上で,科学的計算が有効かどうかを評価する。 LLMは、より良い障害検出とカバレッジを持つテストを生成する上で、Pynguinを一貫して上回っている。重要なことは、テストケースの反復的な改善が高品質なテストスイートを実現する上で重要であるということだ。
論文参考訳（メタデータ） (2025-03-11T08:47:13Z)
Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2024-10-18T08:14:10Z)
Large Language Models for Equivalent Mutant Detection: How Far Are We? [9.126998558502914]
我々は3,302個のメソッドレベルのJavaミュータントペアについて実験的検討を行い、等価なミュータント検出のための大規模言語モデル(LLM)の有効性と効率について検討した。以上の結果から,LLM技術は既存の技術よりも優れており,コード埋め込み戦略が最も効果的であることが示唆された。
論文参考訳（メタデータ） (2024-08-03T11:58:16Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
An Exploratory Study on Using Large Language Models for Mutation Testing [32.91472707292504]
LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。本稿では, LLMのユーザビリティ, 障害検出可能性, および実際のバグとの関係について, 効果的な突然変異生成における性能について検討する。既存のアプローチと比較して、LSMは実際のバグに近い振る舞いをする、より多様な突然変異を生成する。
論文参考訳（メタデータ） (2024-06-14T08:49:41Z)
An Empirical Evaluation of Manually Created Equivalent Mutants [54.02049952279685]
手動で作成した突然変異体の10%未満は等価である。驚くべきことに、我々の発見は、開発者の大部分が同等のミュータントを正確に識別するのに苦労していることを示している。
論文参考訳（メタデータ） (2024-04-14T13:04:10Z)
Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文参考訳（メタデータ） (2024-03-21T15:18:30Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)
MuRS: Mutant Ranking and Suppression using Identifier Templates [4.9205581820379765]
Googleの突然変異テストサービスは、差分ベースの突然変異テストをコードレビュープロセスに統合する。 Googleの突然変異テストサービスは、役に立たないミュータントをターゲットにした、いくつかの抑制ルールを実装している。テスト中のソースコードのパターンによってミュータントをグループ化する自動手法である MuRS を提案し,評価する。
論文参考訳（メタデータ） (2023-06-15T13:43:52Z)
Mutation Testing of Deep Reinforcement Learning Based on Real Faults [11.584571002297217]
本稿では,MT(Reinforcement Learning, 強化学習)システムに拡張するために,既存のMT(Mutation Testing)アプローチに基づいて構築する。本研究は, 突然変異致死定義の設計選択が, 生成したテストケースだけでなく, 変異が致死するか否かにも影響を及ぼすことを示す。
論文参考訳（メタデータ） (2023-01-13T16:45:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。