論文の概要: Boosting LLMs for Mutation Generation
- arxiv url: http://arxiv.org/abs/2603.24560v1
- Date: Wed, 25 Mar 2026 17:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.414204
- Title: Boosting LLMs for Mutation Generation
- Title(参考訳): 突然変異発生用LDMのブースティング
- Authors: Bo Wang, Ming Deng, Mingda Chen, Chengran Yang, Youfang Lin, Mark Harman, Mike Papadakis, Jie M. Zhang,
- Abstract要約: SMART(Semantic Mutation with Adaptive Retrieval and Tuning)を紹介する。
Defects4J と ConDefects のデータセットから1,991 個の実世界の Java バグを使用した SMART の実証的研究を行った。
その結果、SMARTは変異の妥当性、有効性、効率を大幅に改善することが明らかとなった。
- 参考スコア(独自算出の注目度): 35.905252475438466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based mutation testing is a promising testing technology, but existing approaches typically rely on a fixed set of mutations as few-shot examples or none at all. This can result in generic low-quality mutations, missed context-specific mutation patterns, substantial numbers of redundant and uncompilable mutants, and limited semantic similarity to real bugs. To overcome these limitations, we introduce SMART (Semantic Mutation with Adaptive Retrieval and Tuning). SMART integrates retrieval-augmented generation (RAG) on a vectorized dataset of real-world bugs, focused code chunking, and supervised fine-tuning using mutations coupled with real-world bugs. We conducted an extensive empirical study of SMART using 1,991 real-world Java bugs from the Defects4J and ConDefects datasets, comparing SMART to the state-of-the-art LLM-based approaches, LLMut and LLMorpheus. The results reveal that SMART substantially improves mutation validity, effectiveness, and efficiency (even enabling small-scale 7B-scale models to match or even surpass large models like GPT-4o). We also demonstrate that SMART significantly improves downstream software engineering applications, including test case prioritization and fault localization. More specifically, SMART improves validity (weighted average generation rate) from 42.89% to 65.6%. It raises the non-duplicate rate from 87.38% to 95.62%, and the compilable rate from 88.85% to 90.21%. In terms of effectiveness, it achieves a real bug detection rate of 92.61% (vs. 57.86% for LLMut) and improves the average Ochiai coefficient from 25.61% to 38.44%. For fault localization, SMART ranks 64 more bugs as Top-1 under MUSE and 57 more under Metallaxis.
- Abstract(参考訳): LLMベースの突然変異テストは有望なテスト技術であるが、既存のアプローチは通常、いくつかの例や全くの例として、固定された突然変異セットに依存している。
これは結果として、一般的な低品質な突然変異、文脈固有の突然変異パターンの欠如、かなりの数の冗長かつ非コンパイル可能な突然変異、実際のバグとのセマンティックな類似性に制限される。
SMART(Semantic Mutation with Adaptive Retrieval and Tuning)を導入する。
SMARTは、検索拡張生成(RAG)を、実世界のバグのベクトル化されたデータセット、コードのチャンキング、および実世界のバグと組み合わせた突然変異を用いた教師付き微調整に統合する。
我々は、Defects4JとCondefectsのデータセットから1,991個の実世界のJavaバグを用いてSMARTの広範な実験を行い、SMARTを最先端のLSMベースのアプローチであるLLMutとLLMorpheusと比較した。
その結果、SMARTは突然変異の妥当性、有効性、効率を大幅に改善する(小型の7BスケールモデルでもGPT-4oのような大型モデルに匹敵したり、超えたりできる)。
また、SMARTは、テストケースの優先順位付けやフォールトローカライゼーションなど、下流のソフトウェアエンジニアリングアプリケーションを大幅に改善することを示した。
具体的には、SMARTは妥当性(平均生成率)を42.89%から65.6%に改善する。
非重複率は87.38%から95.62%に上昇し、コンパイル可能なレートは88.85%から90.21%に上昇する。
実際のバグ検出率は92.61%(LLMutは57.86%)で、平均落合係数を25.61%から38.44%に改善している。
フォールトローカライゼーションでは、SMARTは64のバグをMUSEのTop-1、Metallaxisの57にランク付けしている。
関連論文リスト
- BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。
難易度および多種多様なバグを合成する新しい方法を提案する。
論文 参考訳(メタデータ) (2025-10-22T17:58:56Z) - LLAMA: Multi-Feedback Smart Contract Fuzzing Framework with LLM-Guided Seed Generation [56.84049855266145]
進化的突然変異戦略とハイブリッドテスト技術を統合したマルチフィードバックスマートコントラクトファジリングフレームワーク(LLAMA)を提案する。
LLAMAは、91%の命令カバレッジと90%のブランチカバレッジを達成すると同時に、148の既知の脆弱性のうち132が検出される。
これらの結果は、現実のスマートコントラクトセキュリティテストシナリオにおけるLAMAの有効性、適応性、実用性を強調している。
論文 参考訳(メタデータ) (2025-07-16T09:46:58Z) - Early Diagnosis of Alzheimer's Diseases and Dementia from MRI Images Using an Ensemble Deep Learning [0.7510165488300369]
アルツハイマー病(英語: Alzheimer's Disease, AD)は、認知障害や認知失調を引き起こす進行性神経疾患である。
本研究では,ADの初期段階を正確に検出するために,IR-BRAINNETとModified-DEMNETの2つのCNNを提案する。
また、CNN間のばらつきを低減し、AD検出を向上させるために出力を平均化するアンサンブルモデルも導入した。
論文 参考訳(メタデータ) (2024-12-07T14:27:41Z) - A Comprehensive Study on Large Language Models for Mutation Testing [36.00296047226433]
大規模言語モデル(LLM)は、最近、研究作業と産業実践の両方においてミュータントを生成するために使用されている。
BugFarm と LLMorpheus (最先端の2つの LLM ベースのアプローチ) を,Java の実世界の2つのバグベンチマークから,851 の実際のバグに対して評価した。
以上の結果から, LLMは既存のルールベースアプローチと比較して, 実際のバグに近づき, 111.29%の障害検出率を持つ, より多様な変異体を生成することが明らかとなった。
論文 参考訳(メタデータ) (2024-06-14T08:49:41Z) - Less is More: Fewer Interpretable Region via Submodular Subset Selection [54.07758302264416]
本稿では,上述の画像帰属問題を部分モジュラ部分選択問題として再モデル化する。
我々は、より正確な小さな解釈領域を発見するために、新しい部分モジュラー関数を構築する。
正しく予測されたサンプルに対しては,HSIC-Attributionに対する平均4.9%と2.5%の利得で,Deletion and Insertionスコアを改善した。
論文 参考訳(メタデータ) (2024-02-14T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。