Fugu-MT 論文翻訳(概要): LLMorpheus: Mutation Testing using Large Language Models

論文の概要: LLMorpheus: Mutation Testing using Large Language Models

arxiv url: http://arxiv.org/abs/2404.09952v1
Date: Mon, 15 Apr 2024 17:25:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 21:27:57.947529
Title: LLMorpheus: Mutation Testing using Large Language Models
Title（参考訳）: LLMorpheus: 大規模言語モデルを用いた変異テスト
Authors: Frank Tip, Jonathan Bell, Max Schäfer,
Abstract要約: 本稿では,ソースコードに挿入されたプレースホルダーを置き換えることで,LLM(Large Language Model)に変異を提案する手法を提案する。 LLMorpheusは、最先端の突然変異検査ツールであるStrykerJSでは生成できない既存のバグに似た変異を生成できる。
参考スコア（独自算出の注目度）: 7.312170216336085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In mutation testing, the quality of a test suite is evaluated by introducing faults into a program and determining whether the program's tests detect them. Most existing approaches for mutation testing involve the application of a fixed set of mutation operators, e.g., replacing a "+" with a "-" or removing a function's body. However, certain types of real-world bugs cannot easily be simulated by such approaches, limiting their effectiveness. This paper presents a technique where a Large Language Model (LLM) is prompted to suggest mutations by asking it what placeholders that have been inserted in source code could be replaced with. The technique is implemented in LLMorpheus, a mutation testing tool for JavaScript, and evaluated on 13 subject packages, considering several variations on the prompting strategy, and using several LLMs. We find LLMorpheus to be capable of producing mutants that resemble existing bugs that cannot be produced by StrykerJS, a state-of-the-art mutation testing tool. Moreover, we report on the running time, cost, and number of mutants produced by LLMorpheus, demonstrating its practicality.
Abstract（参考訳）: 突然変異テストでは、プログラムに欠陥を導入し、プログラムのテストがそれらを検出するかどうかを判断することで、テストスイートの品質を評価する。既存の突然変異検査のアプローチでは、例えば「+」を「-」に置き換えたり、関数の体を除去したりといった、固定された突然変異演算子の応用がほとんどである。しかし、ある種の現実世界のバグはそのようなアプローチによって容易にシミュレートできないため、その効果は制限される。本稿では,ソースコードに挿入されたプレースホルダーを置き換えることで,LLM(Large Language Model)に変異を提案する手法を提案する。この技術はJavaScriptの突然変異テストツールであるLLMorpheusで実装され、プロンプト戦略のいくつかのバリエーションを考慮して13の主題パッケージで評価され、複数のLSMを使用する。 LLMorpheusは、最先端の突然変異検査ツールであるStrykerJSでは生成できない既存のバグに似た変異を生成できる。さらに, LLMorpheusが生産する変異株の走行時間, コスト, 数について報告し, その実用性を示した。

関連論文リスト

LLAMA: Multi-Feedback Smart Contract Fuzzing Framework with LLM-Guided Seed Generation [56.84049855266145]
進化的突然変異戦略とハイブリッドテスト技術を統合したマルチフィードバックスマートコントラクトファジリングフレームワーク(LLAMA)を提案する。 LLAMAは、91%の命令カバレッジと90%のブランチカバレッジを達成すると同時に、148の既知の脆弱性のうち132が検出される。これらの結果は、現実のスマートコントラクトセキュリティテストシナリオにおけるLAMAの有効性、適応性、実用性を強調している。
論文参考訳（メタデータ） (2025-07-16T09:46:58Z)
Mutation Testing via Iterative Large Language Model-Driven Scientific Debugging [10.334617290353192]
我々は,Large Language Models (LLM) が変異体に対するテストを生成する上で,科学的計算が有効かどうかを評価する。 LLMは、より良い障害検出とカバレッジを持つテストを生成する上で、Pynguinを一貫して上回っている。重要なことは、テストケースの反復的な改善が高品質なテストスイートを実現する上で重要であるということだ。
論文参考訳（メタデータ） (2025-03-11T08:47:13Z)
Fine-Tuning LLMs for Code Mutation: A New Era of Cyber Threats [0.9208007322096533]
本稿では,コード変異の文脈におけるLarge Language Modelsの適用について検討する。伝統的に、ミッションクリティカルなアプリケーションにおいて、ソフトウェアの堅牢性を高めるためにコード突然変異が使われてきた。事前学習したLLMベースのコードシンセサイザーに適したコード突然変異訓練の新たな定義を提案する。
論文参考訳（メタデータ） (2024-10-29T17:43:06Z)
FuzzCoder: Byte-level Fuzzing Test via Large Language Model [46.18191648883695]
我々は,攻撃を成功させることで,入力ファイルのパターンを学習するために,微調整された大言語モデル(FuzzCoder)を採用することを提案する。 FuzzCoderは、プログラムの異常な動作を引き起こすために、入力ファイル内の突然変異位置と戦略位置を予測することができる。
論文参考訳（メタデータ） (2024-09-03T14:40:31Z)
An Exploratory Study on Using Large Language Models for Mutation Testing [32.91472707292504]
LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。本稿では, LLMのユーザビリティ, 障害検出可能性, および実際のバグとの関係について, 効果的な突然変異生成における性能について検討する。既存のアプローチと比較して、LSMは実際のバグに近い振る舞いをする、より多様な突然変異を生成する。
論文参考訳（メタデータ） (2024-06-14T08:49:41Z)
MMT: Mutation Testing of Java Bytecode with Model Transformation -- An Illustrative Demonstration [0.11470070927586014]
突然変異テストは、テストスイートの堅牢性をチェックするアプローチである。本稿では,Javaバイトコードの変異をモデル変換によって柔軟に定義できるモデル駆動型アプローチを提案する。 MMTと呼ばれるツールは、オブジェクト指向構造を変更するための高度な突然変異演算子によって拡張されている。
論文参考訳（メタデータ） (2024-04-22T11:33:21Z)
An Empirical Evaluation of Manually Created Equivalent Mutants [54.02049952279685]
手動で作成した突然変異体の10%未満は等価である。驚くべきことに、我々の発見は、開発者の大部分が同等のミュータントを正確に識別するのに苦労していることを示している。
論文参考訳（メタデータ） (2024-04-14T13:04:10Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Contextual Predictive Mutation Testing [17.832774161583036]
MutationBERTは、ソースメソッドの突然変異とテストメソッドを同時にエンコードする予測突然変異テストのアプローチである。精度が高いため、MutationBERTは、ライブミュータントをチェック・検証する以前のアプローチで費やされた時間の33%を節約する。我々は、入力表現と、テストマトリックスレベルからテストスイートレベルまで予測を引き上げるためのアグリゲーションアプローチを検証し、同様の性能改善を見出した。
論文参考訳（メタデータ） (2023-09-05T17:00:15Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)
Fuzzing for CPS Mutation Testing [3.512722797771289]
本稿では, ファジテストを利用した突然変異検査手法を提案し, C および C++ ソフトウェアで有効であることが証明された。実験により, ファジテストに基づく突然変異試験は, シンボル実行よりも高い頻度で生存変異体を殺傷することが明らかとなった。
論文参考訳（メタデータ） (2023-08-15T16:35:31Z)
FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文参考訳（メタデータ） (2023-07-25T14:20:51Z)
A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-05T19:23:34Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)
DeepMutants: Training neural bug detectors with contextual mutations [0.799536002595393]
学習ベースのバグ検知器は、自然なヒントを利用して、大きなコードベースのバグを見つけることを約束する。それでも、既存のテクニックは、現実的なバグを提示するとパフォーマンスが低下する傾向があります。本稿では,自然かつ現実的な欠陥を動的にコードに注入する新しい文脈突然変異演算子を提案する。
論文参考訳（メタデータ） (2021-07-14T12:45:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。