論文の概要: An Exploratory Study on Using Large Language Models for Mutation Testing
- arxiv url: http://arxiv.org/abs/2406.09843v1
- Date: Fri, 14 Jun 2024 08:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 14:24:30.139265
- Title: An Exploratory Study on Using Large Language Models for Mutation Testing
- Title(参考訳): 変異検査における大規模言語モデルの適用に関する探索的研究
- Authors: Bo Wang, Mingda Chen, Youfang Lin, Mike Papadakis, Jie M. Zhang,
- Abstract要約: LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。
オープンソースモデルとクローズドソースモデルの両方を含む4つのLLMと、2つのJavaベンチマークの440の実際のバグを含む、大規模な実証研究を行います。
既存のアプローチと比較して、LSMは実際のバグに近い振る舞いをする、より多様な突然変異を生成する。
- 参考スコア(独自算出の注目度): 32.91472707292504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The question of how to generate high-utility mutations, to be used for testing purposes, forms a key challenge in mutation testing literature. %Existing approaches rely either on human-specified syntactic rules or learning-based approaches, all of which produce large numbers of redundant mutants. Large Language Models (LLMs) have shown great potential in code-related tasks but their utility in mutation testing remains unexplored. To this end, we systematically investigate the performance of LLMs in generating effective mutations w.r.t. to their usability, fault detection potential, and relationship with real bugs. In particular, we perform a large-scale empirical study involving 4 LLMs, including both open- and closed-source models, and 440 real bugs on two Java benchmarks. We find that compared to existing approaches, LLMs generate more diverse mutations that are behaviorally closer to real bugs, which leads to approximately 18% higher fault detection than current approaches (i.e., 87% vs. 69%) in a newly collected set of bugs, purposely selected for evaluating learning-based approaches, i.e., mitigating potential data leakage concerns. Additionally, we explore alternative prompt engineering strategies and the root causes of uncompilable mutations, produced by the LLMs, and provide valuable insights for the use of LLMs in the context of mutation testing.
- Abstract(参考訳): 高能率突然変異をどうやって生成するかという問題は、突然変異検査の文献において重要な課題となっている。
既存のアプローチは、人間特有の構文規則か学習に基づくアプローチに依存しており、これらすべてが多数の冗長な突然変異を生み出す。
LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。
そこで本研究では,LLMのユーザビリティ,障害検出可能性,実際のバグとの関係について,有効な突然変異を生成するための性能を体系的に検討する。
特に、オープンソースモデルとクローズドソースモデルの両方を含む4つのLLMと、2つのJavaベンチマークの440の実際のバグを含む、大規模な実証研究を行います。
既存のアプローチと比較して、LCMは実際のバグに近い振る舞いの多様性のある突然変異を生成するため、潜在的なデータ漏洩の懸念を緩和する学習ベースのアプローチを評価するために、新しく収集された一連のバグにおいて、現在のアプローチ(すなわち87%対69%)よりも約18%高い障害検出をもたらす。
さらに,LLMが生成する非コンパイル変異の根本原因と代替的なプロンプトエンジニアリング戦略について検討し,変異検査の文脈におけるLLMの使用に関する貴重な知見を提供する。
関連論文リスト
- Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - TOGLL: Correct and Strong Test Oracle Generation with LLMs [0.8057006406834466]
テストオラクルはソフトウェアテストにおいて重要な役割を担い、効果的なバグ検出を可能にします。
初期の約束にもかかわらず、自動テストオラクル生成のための神経ベースの手法は、しばしば多数の偽陽性をもたらす。
本研究は,LLMの正当性,多種多様性,強靭性テストオラクルの創出能力に関する総合的研究である。
論文 参考訳(メタデータ) (2024-05-06T18:37:35Z) - LLMorpheus: Mutation Testing using Large Language Models [7.312170216336085]
本稿では,ソースコードに挿入されたプレースホルダーを置き換えることで,LLM(Large Language Model)に変異を提案する手法を提案する。
LLMorpheusは、最先端の突然変異検査ツールであるStrykerJSでは生成できない既存のバグに似た変異を生成できる。
論文 参考訳(メタデータ) (2024-04-15T17:25:14Z) - An Empirical Evaluation of Manually Created Equivalent Mutants [54.02049952279685]
手動で作成した突然変異体の10%未満は等価である。
驚くべきことに、我々の発見は、開発者の大部分が同等のミュータントを正確に識別するのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-04-14T13:04:10Z) - Evaluating Diverse Large Language Models for Automatic and General Bug
Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。
提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文 参考訳(メタデータ) (2023-11-08T08:42:30Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Mutation Testing of Deep Reinforcement Learning Based on Real Faults [11.584571002297217]
本稿では,MT(Reinforcement Learning, 強化学習)システムに拡張するために,既存のMT(Mutation Testing)アプローチに基づいて構築する。
本研究は, 突然変異致死定義の設計選択が, 生成したテストケースだけでなく, 変異が致死するか否かにも影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2023-01-13T16:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。