論文の概要: Large Language Models for Equivalent Mutant Detection: How Far Are We?
- arxiv url: http://arxiv.org/abs/2408.01760v1
- Date: Sat, 3 Aug 2024 11:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 18:30:57.899797
- Title: Large Language Models for Equivalent Mutant Detection: How Far Are We?
- Title(参考訳): 等価変異検出のための大規模言語モデル:我々はどれくらい遠いのか?
- Authors: Zhao Tian, Honglin Shu, Dong Wang, Xuejie Cao, Yasutaka Kamei, Junjie Chen,
- Abstract要約: 我々は3,302個のメソッドレベルのJavaミュータントペアについて実験的検討を行い、等価なミュータント検出のための大規模言語モデル(LLM)の有効性と効率について検討した。
以上の結果から,LLM技術は既存の技術よりも優れており,コード埋め込み戦略が最も効果的であることが示唆された。
- 参考スコア(独自算出の注目度): 9.126998558502914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mutation testing is vital for ensuring software quality. However, the presence of equivalent mutants is known to introduce redundant cost and bias issues, hindering the effectiveness of mutation testing in practical use. Although numerous equivalent mutant detection (EMD) techniques have been proposed, they exhibit limitations due to the scarcity of training data and challenges in generalizing to unseen mutants. Recently, large language models (LLMs) have been extensively adopted in various code-related tasks and have shown superior performance by more accurately capturing program semantics. Yet the performance of LLMs in equivalent mutant detection remains largely unclear. In this paper, we conduct an empirical study on 3,302 method-level Java mutant pairs to comprehensively investigate the effectiveness and efficiency of LLMs for equivalent mutant detection. Specifically, we assess the performance of LLMs compared to existing EMD techniques, examine the various strategies of LLMs, evaluate the orthogonality between EMD techniques, and measure the time overhead of training and inference. Our findings demonstrate that LLM-based techniques significantly outperform existing techniques (i.e., the average improvement of 35.69% in terms of F1-score), with the fine-tuned code embedding strategy being the most effective. Moreover, LLM-based techniques offer an excellent balance between cost (relatively low training and inference time) and effectiveness. Based on our findings, we further discuss the impact of model size and embedding quality, and provide several promising directions for future research. This work is the first to examine LLMs in equivalent mutant detection, affirming their effectiveness and efficiency.
- Abstract(参考訳): 変異テストは、ソフトウェアの品質を保証するために不可欠です。
しかし、等価変異体の存在は、冗長なコストとバイアスの問題を導入し、実際的な使用における突然変異検査の有効性を妨げることが知られている。
多くの等価ミュータント検出(EMD)技術が提案されているが、トレーニングデータの不足と、未確認ミュータントへの一般化の難しさにより制限されている。
近年,大規模言語モデル (LLM) は様々なコード関連タスクに広く採用されており,プログラムのセマンティクスをより正確に捉えることで,優れた性能を示している。
しかし、等価変異検出におけるLLMの性能はほとんど不明である。
本稿では,3,302個のメソッドレベルのJavaミュータントペアに対して,等価なミュータント検出のためのLLMの有効性と効率を包括的に検討する。
具体的には、既存のEMD技術と比較してLCMの性能を評価し、LCMの様々な戦略を調べ、EMD技術間の直交性を評価し、トレーニングと推論の時間オーバーヘッドを測定する。
以上の結果から,LLM技術は既存の技術(F1スコアの35.69%の平均改善)を著しく上回り,コード埋め込み戦略が最も効果的であることが示唆された。
さらに、LCMベースの技術は、コスト(比較的低いトレーニングと推論時間)と有効性の間の優れたバランスを提供する。
本研究は,モデルサイズと組込み品質の影響についてさらに議論し,今後の研究に期待できる方向をいくつか提示する。
この研究は、LLMを等価変異検出において初めて検討し、その有効性と効率を確認した。
関連論文リスト
- Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - An Exploratory Study on Using Large Language Models for Mutation Testing [32.91472707292504]
LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。
オープンソースモデルとクローズドソースモデルの両方を含む4つのLLMと、2つのJavaベンチマークの440の実際のバグを含む、大規模な実証研究を行います。
既存のアプローチと比較して、LSMは実際のバグに近い振る舞いをする、より多様な突然変異を生成する。
論文 参考訳(メタデータ) (2024-06-14T08:49:41Z) - Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。
GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。
オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文 参考訳(メタデータ) (2024-06-12T02:23:51Z) - Enhancing Fault Detection for Large Language Models via Mutation-Based Confidence Smoothing [24.55745161068782]
大きな言語モデル(LLM)の欠点を素早く明らかにする方法は重要だが、難しい。
既存の故障検出手法はLLMではうまく動作しない。
そこで本研究では,Mutation-based prediction Confidence Smoothing method for LLMsを提案する。
論文 参考訳(メタデータ) (2024-04-14T07:06:12Z) - What Makes Quantization for Large Language Models Hard? An Empirical
Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。
本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。
各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文 参考訳(メタデータ) (2024-03-11T03:42:51Z) - Robust Analysis of Multi-Task Learning Efficiency: New Benchmarks on Light-Weighed Backbones and Effective Measurement of Multi-Task Learning Challenges by Feature Disentanglement [69.51496713076253]
本稿では,既存のMTL手法の効率性に焦点をあてる。
バックボーンを小さくしたメソッドの大規模な実験と,MetaGraspNetデータセットを新しいテストグラウンドとして実施する。
また,MTLにおける課題の新規かつ効率的な識別子として,特徴分散尺度を提案する。
論文 参考訳(メタデータ) (2024-02-05T22:15:55Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。