Fugu-MT 論文翻訳(概要): SWE-Mutation: Can LLMs Generate Reliable Test Suites in Software Engineering?

論文の概要: SWE-Mutation: Can LLMs Generate Reliable Test Suites in Software Engineering?

arxiv url: http://arxiv.org/abs/2605.22175v1
Date: Thu, 21 May 2026 08:45:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 16:35:42.169777
Title: SWE-Mutation: Can LLMs Generate Reliable Test Suites in Software Engineering?
Title（参考訳）: SWE-Mutation: LLMはソフトウェアエンジニアリングで信頼性の高いテストスイートを生成することができるか?
Authors: Yuxuan Sun, Yuze Zhao, Yufeng Wang, Yao Du, Zhiyuan Ma, Jinbo Wang, Mengdi Zhang, Kai Zhang, Zhenya Huang,
Abstract要約: プログラム修復軌道の合成や強化学習における正確なフィードバック信号の提供にはテストスイートが不可欠である。 LLM生成テストスイートを評価するベンチマークであるSWE-Mutationを紹介する。複雑な突然変異を自動生成するエージェント型言語に依存しないフレームワークを提案する。
参考スコア（独自算出の注目度）: 32.40265738661726
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Evaluating software engineering capabilities has become a core component of modern large language models (LLMs); however, the key bottleneck hindering further scaling lies not in the scarcity of high-quality solutions, but in the lack of high-quality test suites. Test suites are indispensable both for synthesizing program repair trajectories and for providing precise feedback signals in reinforcement learning. Unfortunately, due to the high cost and difficulty of annotation, high-quality test suites have long been hard to obtain, while those automatically generated by LLMs tend to be superficial and lack sufficient discriminative power. As a first step toward constructing high-quality test suites, we introduce SWE-Mutation, a benchmark for evaluating LLM-generated test suites. The benchmark characterizes test suites by introducing systematically mutated solutions that attempt to ``fool'' the test suites and pass validation. We further propose an agentic, language-agnostic framework for automatically generating complex mutants. Our benchmark consists of 2,636 mutated variants derived from 800 original instances and includes a multilingual subset spanning nine programming languages. Experiments on seven LLMs reveal that even DeepSeek-V3.1 achieves only 10.20% verification and 36.15% detection rates, highlighting the inadequacy of current LLMs. Additionally, our agentic mutation strategy enhances realism, reducing average detection rates from 71.04% to 39.81% compared to conventional methods. These findings expose persistent deficiencies in the ability of current LLMs to generate reliable and discriminative test suites.
Abstract（参考訳）: しかし、さらなるスケーリングを妨げる重要なボトルネックは、高品質なソリューションの不足ではなく、高品質なテストスイートの欠如にある。テストスイートは、プログラム修復軌道の合成と、強化学習における正確なフィードバック信号の提供の両方に不可欠である。残念ながら、高いコストとアノテーションの難しさのため、高品質なテストスイートは入手が困難であり、LSMによって自動生成されるテストスイートは表面的であり、十分な識別力を持たない傾向にある。高品質なテストスイート構築に向けた第一歩として,LLM生成テストスイートを評価するベンチマークであるSWE-Mutationを紹介する。このベンチマークは、テストスイートを‘fool’にし、検証をパスしようとする、体系的に変更されたソリューションを導入することで、テストスイートを特徴付ける。さらに,複雑な変異を自動生成するエージェント・言語に依存しないフレームワークを提案する。我々のベンチマークは、800のオリジナルインスタンスから派生した2,636の変異型で構成され、9つのプログラミング言語にまたがる多言語サブセットを含んでいる。 7つのLLMの実験では、DeepSeek-V3.1でさえ10.20%の検証と36.15%の検出率しか達成できず、現在のLLMの不十分さを浮き彫りにした。さらに、エージェント突然変異戦略はリアリズムを高め、従来の方法に比べて平均検出率を71.04%から39.81%に下げる。これらの結果から,LLMの信頼性・差別性テストスイートの生成能力の持続的欠陥が明らかとなった。

関連論文リスト

Correct Code, Vulnerable Dependencies: A Large Scale Measurement Study of LLM-Specified Library Versions [52.50730821321986]
大規模言語モデル(LLM)におけるバージョンレベルのリスクの大規模評価を初めて行った。我々は1000のStack OverflowプログラミングタスクのベンチマークであるPinTrace上で10のLLMを評価した。 LLM バージョン選択は LLM ベース開発における第1級, 以前は見落とされたリスクサーフェスとして確認された。
論文参考訳（メタデータ） (2026-05-07T13:52:59Z)
TestDecision: Sequential Test Suite Generation via Greedy Optimization and Reinforcement Learning [17.157244731153554]
MDPとしてテストスイートの生成を形式化し,その目的が単調な部分モジュラリティを示すことを示す。本研究では,LSMを神経グリージーの専門家に変換するTestDecisionを提案する。 TestDecisionは既存の高度なメソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2026-04-02T09:13:52Z)
Are Benchmark Tests Strong Enough? Mutation-Guided Diagnosis and Augmentation of Regression Suites [49.16055123488827]
十分に強力なテストスイートは、報告された成功率を膨らませながら、妥当だが意味的に正しくないパッチを認めることができる。 STINGは、意味的に変化するプログラムの変種を診断ストレス要因として利用する、ターゲットテスト拡張のためのフレームワークである。 STINGは211インスタンスにまたがる1014の検証テストを生成し、パッチリージョンラインとブランチカバレッジを10.8%、9.5%向上させた。
論文参考訳（メタデータ） (2026-04-02T01:13:40Z)
Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning [54.95476453942411]
コード生成のための強化学習は、単体テストのパスレートから検証可能な報酬に依存する。最近のセルフプレイ手法は、1つのモデルでコードとテスト生成を統合する。 Code-A1は、人間のアノテーションによるテストでトレーニングされたコード生成のパフォーマンスマッチングまたはモデルを超えることを実現する。
論文参考訳（メタデータ） (2026-03-16T17:58:13Z)
Test smells in LLM-Generated Unit Tests [16.061139428298986]
本稿では, LLM 生成単体試験におけるテスト臭拡散の大規模解析法として, マルチベンチマークを初めて提案する。本研究では,4つのLCM(GPT-3.5,GPT-4,Mistral 7B,Mixtral 8x7B)から20,505のクラスレベルスイート,TestBenchから972のメソッドレベルケース,14,469のEvoSuiteテスト,34,635のオープンソースJavaプロジェクトから779,585の人書きテストについて検討した。
論文参考訳（メタデータ） (2024-10-14T15:35:44Z)
TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。本研究では,新しい単体テスト生成法であるTestARTを提案する。 TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文参考訳（メタデータ） (2024-08-06T10:52:41Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。