Fugu-MT 論文翻訳(概要): Test vs Mutant: Adversarial LLM Agents for Robust Unit Test Generation

論文の概要: Test vs Mutant: Adversarial LLM Agents for Robust Unit Test Generation

arxiv url: http://arxiv.org/abs/2602.08146v1
Date: Sun, 08 Feb 2026 22:34:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:24.999618
Title: Test vs Mutant: Adversarial LLM Agents for Robust Unit Test Generation
Title（参考訳）: テスト対変異:ロバスト単体テスト生成のための逆LLMエージェント
Authors: Pengyu Chang, Yixiong Fang, Silin Chen, Yuling Shi, Beijun Shen, Xiaodong Gu,
Abstract要約: LLM(Large Language Model)ベースの手法は、より可読性の高いテストを生成するが、しばしば低カバレッジとコンパイル性に悩まされる。本稿では,LLMを用いたテストケース生成のための新しい逆フレームワークであるAdverTestを提案する。提案手法は, 既存のLLM法よりも8.56%, EvoSuiteより63.30%, 故障検出率の向上を図っている。
参考スコア（独自算出の注目度）: 9.439427795905637
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software testing is a critical, yet resource-intensive phase of the software development lifecycle. Over the years, various automated tools have been developed to aid in this process. Search-based approaches typically achieve high coverage but produce tests with low readability, whereas large language model (LLM)-based methods generate more human-readable tests but often suffer from low coverage and compilability. While the majority of research efforts have focused on improving test coverage and readability, little attention has been paid to enhancing the robustness of bug detection, particularly in exposing corner cases and vulnerable execution paths. To address this gap, we propose AdverTest, a novel adversarial framework for LLM-powered test case generation. AdverTest comprises two interacting agents: a test case generation agent (T) and a mutant generation agent (M). These agents engage in an adversarial loop, where M persistently creates new mutants "hacking" the blind spots of T's current test suite, while T iteratively refines its test cases to "kill" the challenging mutants produced by M. This interaction loop is guided by both coverage and mutation scores, enabling the system to co-evolve toward both high test coverage and bug detection capability. Experimental results in the Defects4J dataset show that our approach improves fault detection rates by 8.56% over the best existing LLM-based methods and by 63.30% over EvoSuite, while also improving line and branch coverage.
Abstract（参考訳）: ソフトウェアテストは、ソフトウェア開発ライフサイクルの重要な、しかしリソース集約的なフェーズです。長年にわたり、このプロセスを支援するために様々な自動化ツールが開発されてきた。検索ベースのアプローチは一般的に高いカバレッジを実現するが、読みやすさの低いテストを生成するのに対し、大きな言語モデル(LLM)ベースの手法はより可読性の高いテストを生成するが、しばしば低カバレッジとコンパイル性に悩まされる。研究活動の大半はテストカバレッジと可読性の改善に重点を置いているが、バグ検出の堅牢性、特にコーナーケースの露出と脆弱な実行パスの向上にはほとんど注意が払われていない。このギャップに対処するために,LLMを用いたテストケース生成のための新しい逆フレームワークであるAdverTestを提案する。 AdverTestは、テストケース生成剤(T)とミュータント生成剤(M)の2つの相互作用剤からなる。これらのエージェントは、Mが永続的にTの現在のテストスイートの盲点を"ハック"する新しいミュータントを生成し、Tはテストケースを反復的に洗練し、Mが生成する挑戦的なミュータントを"殺し"する。このインタラクションループはカバレッジと突然変異スコアの両方によってガイドされ、システムは高いテストカバレッジとバグ検出機能の両方に共進化する。 Defects4Jデータセットによる実験結果から,既存のLLM法よりも8.56%,EvoSuiteよりも63.30%,ラインおよびブランチカバレッジも改善した。

関連論文リスト

Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文参考訳（メタデータ） (2026-02-04T06:30:40Z)
DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。 DoVerは失敗試験の18～28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30～60%を検証または否定する。
論文参考訳（メタデータ） (2025-12-07T09:23:48Z)
ATGen: Adversarial Reinforcement Learning for Test Case Generation [78.48498301767079]
大きな言語モデル(LLM)はコード生成に優れていますが、その出力には微妙なバグが伴います。既存のテスト生成方法は静的データセットに依存している。我々は,対戦型強化学習を通じてテストケースジェネレータを訓練するフレームワークであるATGenを紹介する。
論文参考訳（メタデータ） (2025-10-16T12:49:25Z)
DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。 MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文参考訳（メタデータ） (2025-09-15T10:59:57Z)
LLAMA: Multi-Feedback Smart Contract Fuzzing Framework with LLM-Guided Seed Generation [56.84049855266145]
進化的突然変異戦略とハイブリッドテスト技術を統合したマルチフィードバックスマートコントラクトファジリングフレームワーク(LLAMA)を提案する。 LLAMAは、91%の命令カバレッジと90%のブランチカバレッジを達成すると同時に、148の既知の脆弱性のうち132が検出される。これらの結果は、現実のスマートコントラクトセキュリティテストシナリオにおけるLAMAの有効性、適応性、実用性を強調している。
論文参考訳（メタデータ） (2025-07-16T09:46:58Z)
Mutation-Guided Unit Test Generation with a Large Language Model [7.3946430511009735]
MUTGENは変異誘導型LLMベースのテスト生成アプローチである。これはEvoSuiteとバニラプロンプトベースの戦略の両方で突然変異スコアにおいて著しく優れています。
論文参考訳（メタデータ） (2025-06-03T14:47:22Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。