Fugu-MT 論文翻訳(概要): An Exploratory Study on Using Large Language Models for Mutation Testing

論文の概要: An Exploratory Study on Using Large Language Models for Mutation Testing

arxiv url: http://arxiv.org/abs/2406.09843v1
Date: Fri, 14 Jun 2024 08:49:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 14:24:30.139265
Title: An Exploratory Study on Using Large Language Models for Mutation Testing
Title（参考訳）: 変異検査における大規模言語モデルの適用に関する探索的研究
Authors: Bo Wang, Mingda Chen, Youfang Lin, Mike Papadakis, Jie M. Zhang,
Abstract要約: LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。オープンソースモデルとクローズドソースモデルの両方を含む4つのLLMと、2つのJavaベンチマークの440の実際のバグを含む、大規模な実証研究を行います。既存のアプローチと比較して、LSMは実際のバグに近い振る舞いをする、より多様な突然変異を生成する。
参考スコア（独自算出の注目度）: 32.91472707292504
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The question of how to generate high-utility mutations, to be used for testing purposes, forms a key challenge in mutation testing literature. %Existing approaches rely either on human-specified syntactic rules or learning-based approaches, all of which produce large numbers of redundant mutants. Large Language Models (LLMs) have shown great potential in code-related tasks but their utility in mutation testing remains unexplored. To this end, we systematically investigate the performance of LLMs in generating effective mutations w.r.t. to their usability, fault detection potential, and relationship with real bugs. In particular, we perform a large-scale empirical study involving 4 LLMs, including both open- and closed-source models, and 440 real bugs on two Java benchmarks. We find that compared to existing approaches, LLMs generate more diverse mutations that are behaviorally closer to real bugs, which leads to approximately 18% higher fault detection than current approaches (i.e., 87% vs. 69%) in a newly collected set of bugs, purposely selected for evaluating learning-based approaches, i.e., mitigating potential data leakage concerns. Additionally, we explore alternative prompt engineering strategies and the root causes of uncompilable mutations, produced by the LLMs, and provide valuable insights for the use of LLMs in the context of mutation testing.
Abstract（参考訳）: 高能率突然変異をどうやって生成するかという問題は、突然変異検査の文献において重要な課題となっている。既存のアプローチは、人間特有の構文規則か学習に基づくアプローチに依存しており、これらすべてが多数の冗長な突然変異を生み出す。 LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。そこで本研究では,LLMのユーザビリティ,障害検出可能性,実際のバグとの関係について,有効な突然変異を生成するための性能を体系的に検討する。特に、オープンソースモデルとクローズドソースモデルの両方を含む4つのLLMと、2つのJavaベンチマークの440の実際のバグを含む、大規模な実証研究を行います。既存のアプローチと比較して、LCMは実際のバグに近い振る舞いの多様性のある突然変異を生成するため、潜在的なデータ漏洩の懸念を緩和する学習ベースのアプローチを評価するために、新しく収集された一連のバグにおいて、現在のアプローチ(すなわち87%対69%)よりも約18%高い障害検出をもたらす。さらに,LLMが生成する非コンパイル変異の根本原因と代替的なプロンプトエンジニアリング戦略について検討し,変異検査の文脈におけるLLMの使用に関する貴重な知見を提供する。

関連論文リスト

The Foundation Cracks: A Comprehensive Study on Bugs and Testing Practices in LLM Libraries [37.57398329330302]
大規模言語モデル(LLM)ライブラリは、今日のAI革命を支える基盤インフラストラクチャとして登場した。 LLMエコシステムにおけるそれらの重要な役割にもかかわらず、これらのライブラリは、それら上に構築されたAIシステムの信頼性を脅かすような、頻繁な品質の問題とバグに直面している。本稿では,近代LLMライブラリにおけるバグの特徴とテスト実践に関する総合的研究について紹介する。
論文参考訳（メタデータ） (2025-06-14T03:00:36Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文参考訳（メタデータ） (2025-01-28T15:41:54Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.327835928133535]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。 LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文参考訳（メタデータ） (2024-10-10T01:14:58Z)
Large Language Models for Equivalent Mutant Detection: How Far Are We? [9.126998558502914]
我々は3,302個のメソッドレベルのJavaミュータントペアについて実験的検討を行い、等価なミュータント検出のための大規模言語モデル(LLM)の有効性と効率について検討した。以上の結果から,LLM技術は既存の技術よりも優れており,コード埋め込み戦略が最も効果的であることが示唆された。
論文参考訳（メタデータ） (2024-08-03T11:58:16Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。 GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文参考訳（メタデータ） (2024-06-12T02:23:51Z)
TOGLL: Correct and Strong Test Oracle Generation with LLMs [0.8057006406834466]
テストオラクルはソフトウェアテストにおいて重要な役割を担い、効果的なバグ検出を可能にします。初期の約束にもかかわらず、自動テストオラクル生成のための神経ベースの手法は、しばしば多数の偽陽性をもたらす。本研究は,LLMの正当性,多種多様性,強靭性テストオラクルの創出能力に関する総合的研究である。
論文参考訳（メタデータ） (2024-05-06T18:37:35Z)
LLMorpheus: Mutation Testing using Large Language Models [7.312170216336085]
本稿では,ソースコードに挿入されたプレースホルダーを置き換えることで,LLM(Large Language Model)に変異を提案する手法を提案する。 LLMorpheusは、最先端の突然変異検査ツールであるStrykerJSでは生成できない既存のバグに似た変異を生成できる。
論文参考訳（メタデータ） (2024-04-15T17:25:14Z)
An Empirical Evaluation of Manually Created Equivalent Mutants [54.02049952279685]
手動で作成した突然変異体の10%未満は等価である。驚くべきことに、我々の発見は、開発者の大部分が同等のミュータントを正確に識別するのに苦労していることを示している。
論文参考訳（メタデータ） (2024-04-14T13:04:10Z)
Evaluation and Improvement of Fault Detection for Large Language Models [30.760472387136954]
本稿では,大規模言語モデル(LLM)における既存の故障検出手法の有効性について検討する。既存の手法の故障検出能力を高めるために, textbfMutation による予測を行う textbfConfidence textbfSmoothing フレームワーク textbfMuCS を提案する。
論文参考訳（メタデータ） (2024-04-14T07:06:12Z)
Evaluating Diverse Large Language Models for Automatic and General Bug Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文参考訳（メタデータ） (2023-11-08T08:42:30Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)
A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。生成過程における幻覚を積極的に検出・緩和する手法を提案する。提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文参考訳（メタデータ） (2023-07-08T14:25:57Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Mutation Testing of Deep Reinforcement Learning Based on Real Faults [11.584571002297217]
本稿では,MT(Reinforcement Learning, 強化学習)システムに拡張するために,既存のMT(Mutation Testing)アプローチに基づいて構築する。本研究は, 突然変異致死定義の設計選択が, 生成したテストケースだけでなく, 変異が致死するか否かにも影響を及ぼすことを示す。
論文参考訳（メタデータ） (2023-01-13T16:45:56Z)
Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文参考訳（メタデータ） (2022-04-22T17:27:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。