論文の概要: LLMorpheus: Mutation Testing using Large Language Models
- arxiv url: http://arxiv.org/abs/2404.09952v1
- Date: Mon, 15 Apr 2024 17:25:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 21:27:57.947529
- Title: LLMorpheus: Mutation Testing using Large Language Models
- Title(参考訳): LLMorpheus: 大規模言語モデルを用いた変異テスト
- Authors: Frank Tip, Jonathan Bell, Max Schäfer,
- Abstract要約: 本稿では,ソースコードに挿入されたプレースホルダーを置き換えることで,LLM(Large Language Model)に変異を提案する手法を提案する。
LLMorpheusは、最先端の突然変異検査ツールであるStrykerJSでは生成できない既存のバグに似た変異を生成できる。
- 参考スコア(独自算出の注目度): 7.312170216336085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In mutation testing, the quality of a test suite is evaluated by introducing faults into a program and determining whether the program's tests detect them. Most existing approaches for mutation testing involve the application of a fixed set of mutation operators, e.g., replacing a "+" with a "-" or removing a function's body. However, certain types of real-world bugs cannot easily be simulated by such approaches, limiting their effectiveness. This paper presents a technique where a Large Language Model (LLM) is prompted to suggest mutations by asking it what placeholders that have been inserted in source code could be replaced with. The technique is implemented in LLMorpheus, a mutation testing tool for JavaScript, and evaluated on 13 subject packages, considering several variations on the prompting strategy, and using several LLMs. We find LLMorpheus to be capable of producing mutants that resemble existing bugs that cannot be produced by StrykerJS, a state-of-the-art mutation testing tool. Moreover, we report on the running time, cost, and number of mutants produced by LLMorpheus, demonstrating its practicality.
- Abstract(参考訳): 突然変異テストでは、プログラムに欠陥を導入し、プログラムのテストがそれらを検出するかどうかを判断することで、テストスイートの品質を評価する。
既存の突然変異検査のアプローチでは、例えば「+」を「-」に置き換えたり、関数の体を除去したりといった、固定された突然変異演算子の応用がほとんどである。
しかし、ある種の現実世界のバグはそのようなアプローチによって容易にシミュレートできないため、その効果は制限される。
本稿では,ソースコードに挿入されたプレースホルダーを置き換えることで,LLM(Large Language Model)に変異を提案する手法を提案する。
この技術はJavaScriptの突然変異テストツールであるLLMorpheusで実装され、プロンプト戦略のいくつかのバリエーションを考慮して13の主題パッケージで評価され、複数のLSMを使用する。
LLMorpheusは、最先端の突然変異検査ツールであるStrykerJSでは生成できない既存のバグに似た変異を生成できる。
さらに, LLMorpheusが生産する変異株の走行時間, コスト, 数について報告し, その実用性を示した。
関連論文リスト
- Fine-Tuning LLMs for Code Mutation: A New Era of Cyber Threats [0.9208007322096533]
本稿では,コード変異の文脈におけるLarge Language Modelsの適用について検討する。
伝統的に、ミッションクリティカルなアプリケーションにおいて、ソフトウェアの堅牢性を高めるためにコード突然変異が使われてきた。
事前学習したLLMベースのコードシンセサイザーに適したコード突然変異訓練の新たな定義を提案する。
論文 参考訳(メタデータ) (2024-10-29T17:43:06Z) - An Exploratory Study on Using Large Language Models for Mutation Testing [32.91472707292504]
LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。
本稿では, LLMのユーザビリティ, 障害検出可能性, および実際のバグとの関係について, 効果的な突然変異生成における性能について検討する。
既存のアプローチと比較して、LSMは実際のバグに近い振る舞いをする、より多様な突然変異を生成する。
論文 参考訳(メタデータ) (2024-06-14T08:49:41Z) - MMT: Mutation Testing of Java Bytecode with Model Transformation -- An Illustrative Demonstration [0.11470070927586014]
突然変異テストは、テストスイートの堅牢性をチェックするアプローチである。
本稿では,Javaバイトコードの変異をモデル変換によって柔軟に定義できるモデル駆動型アプローチを提案する。
MMTと呼ばれるツールは、オブジェクト指向構造を変更するための高度な突然変異演算子によって拡張されている。
論文 参考訳(メタデータ) (2024-04-22T11:33:21Z) - An Empirical Evaluation of Manually Created Equivalent Mutants [54.02049952279685]
手動で作成した突然変異体の10%未満は等価である。
驚くべきことに、我々の発見は、開発者の大部分が同等のミュータントを正確に識別するのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-04-14T13:04:10Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Contextual Predictive Mutation Testing [17.832774161583036]
MutationBERTは、ソースメソッドの突然変異とテストメソッドを同時にエンコードする予測突然変異テストのアプローチである。
精度が高いため、MutationBERTは、ライブミュータントをチェック・検証する以前のアプローチで費やされた時間の33%を節約する。
我々は、入力表現と、テストマトリックスレベルからテストスイートレベルまで予測を引き上げるためのアグリゲーションアプローチを検証し、同様の性能改善を見出した。
論文 参考訳(メタデータ) (2023-09-05T17:00:15Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - DeepMutants: Training neural bug detectors with contextual mutations [0.799536002595393]
学習ベースのバグ検知器は、自然なヒントを利用して、大きなコードベースのバグを見つけることを約束する。
それでも、既存のテクニックは、現実的なバグを提示するとパフォーマンスが低下する傾向があります。
本稿では,自然かつ現実的な欠陥を動的にコードに注入する新しい文脈突然変異演算子を提案する。
論文 参考訳(メタデータ) (2021-07-14T12:45:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。