Fugu-MT 論文翻訳(概要): Large Language Models for Equivalent Mutant Detection: How Far Are We?

論文の概要: Large Language Models for Equivalent Mutant Detection: How Far Are We?

arxiv url: http://arxiv.org/abs/2408.01760v1
Date: Sat, 3 Aug 2024 11:58:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 18:30:57.899797
Title: Large Language Models for Equivalent Mutant Detection: How Far Are We?
Title（参考訳）: 等価変異検出のための大規模言語モデル:我々はどれくらい遠いのか?
Authors: Zhao Tian, Honglin Shu, Dong Wang, Xuejie Cao, Yasutaka Kamei, Junjie Chen,
Abstract要約: 我々は3,302個のメソッドレベルのJavaミュータントペアについて実験的検討を行い、等価なミュータント検出のための大規模言語モデル(LLM)の有効性と効率について検討した。以上の結果から,LLM技術は既存の技術よりも優れており,コード埋め込み戦略が最も効果的であることが示唆された。
参考スコア（独自算出の注目度）: 9.126998558502914
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mutation testing is vital for ensuring software quality. However, the presence of equivalent mutants is known to introduce redundant cost and bias issues, hindering the effectiveness of mutation testing in practical use. Although numerous equivalent mutant detection (EMD) techniques have been proposed, they exhibit limitations due to the scarcity of training data and challenges in generalizing to unseen mutants. Recently, large language models (LLMs) have been extensively adopted in various code-related tasks and have shown superior performance by more accurately capturing program semantics. Yet the performance of LLMs in equivalent mutant detection remains largely unclear. In this paper, we conduct an empirical study on 3,302 method-level Java mutant pairs to comprehensively investigate the effectiveness and efficiency of LLMs for equivalent mutant detection. Specifically, we assess the performance of LLMs compared to existing EMD techniques, examine the various strategies of LLMs, evaluate the orthogonality between EMD techniques, and measure the time overhead of training and inference. Our findings demonstrate that LLM-based techniques significantly outperform existing techniques (i.e., the average improvement of 35.69% in terms of F1-score), with the fine-tuned code embedding strategy being the most effective. Moreover, LLM-based techniques offer an excellent balance between cost (relatively low training and inference time) and effectiveness. Based on our findings, we further discuss the impact of model size and embedding quality, and provide several promising directions for future research. This work is the first to examine LLMs in equivalent mutant detection, affirming their effectiveness and efficiency.
Abstract（参考訳）: 変異テストは、ソフトウェアの品質を保証するために不可欠です。しかし、等価変異体の存在は、冗長なコストとバイアスの問題を導入し、実際的な使用における突然変異検査の有効性を妨げることが知られている。多くの等価ミュータント検出(EMD)技術が提案されているが、トレーニングデータの不足と、未確認ミュータントへの一般化の難しさにより制限されている。近年,大規模言語モデル (LLM) は様々なコード関連タスクに広く採用されており,プログラムのセマンティクスをより正確に捉えることで,優れた性能を示している。しかし、等価変異検出におけるLLMの性能はほとんど不明である。本稿では,3,302個のメソッドレベルのJavaミュータントペアに対して,等価なミュータント検出のためのLLMの有効性と効率を包括的に検討する。具体的には、既存のEMD技術と比較してLCMの性能を評価し、LCMの様々な戦略を調べ、EMD技術間の直交性を評価し、トレーニングと推論の時間オーバーヘッドを測定する。以上の結果から,LLM技術は既存の技術(F1スコアの35.69%の平均改善)を著しく上回り,コード埋め込み戦略が最も効果的であることが示唆された。さらに、LCMベースの技術は、コスト(比較的低いトレーニングと推論時間)と有効性の間の優れたバランスを提供する。本研究は,モデルサイズと組込み品質の影響についてさらに議論し,今後の研究に期待できる方向をいくつか提示する。この研究は、LLMを等価変異検出において初めて検討し、その有効性と効率を確認した。

関連論文リスト

A Comprehensive Evaluation of Parameter-Efficient Fine-Tuning on Method-Level Code Smell Detection [11.9757082688031]
既存の検出手法は、コードまたは機械学習(ML)とディープラーニング(DL)技術に依存しており、しばしば不満足なパフォーマンスのような制限に直面している。本研究では,2種類のメソッドレベルのコードの臭いを検出するために,小・大規模言語モデルを用いたPEFT手法の評価を行った。その結果,PEFT法はGPUメモリの消費を減らしながら,フル微調整よりも同等あるいは優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2024-12-18T12:48:36Z)
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination [18.586654412992168]
MLLM(Multimodal large language model)は、様々なマルチモーダルベンチマークにおいて優れた性能を示す。トレーニング中のデータ汚染の問題は、パフォーマンス評価と比較の課題を生み出します。 MLLM向けに設計されたマルチモーダルデータ汚染検出フレームワークMM-Detectを導入する。
論文参考訳（メタデータ） (2024-11-06T10:44:15Z)
Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.165102332393964]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。 LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文参考訳（メタデータ） (2024-10-10T01:14:58Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
An Exploratory Study on Using Large Language Models for Mutation Testing [32.91472707292504]
LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。本稿では, LLMのユーザビリティ, 障害検出可能性, および実際のバグとの関係について, 効果的な突然変異生成における性能について検討する。既存のアプローチと比較して、LSMは実際のバグに近い振る舞いをする、より多様な突然変異を生成する。
論文参考訳（メタデータ） (2024-06-14T08:49:41Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。 GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文参考訳（メタデータ） (2024-06-12T02:23:51Z)
Evaluation and Improvement of Fault Detection for Large Language Models [30.760472387136954]
本稿では,大規模言語モデル(LLM)における既存の故障検出手法の有効性について検討する。既存の手法の故障検出能力を高めるために, textbfMutation による予測を行う textbfConfidence textbfSmoothing フレームワーク textbfMuCS を提案する。
論文参考訳（メタデータ） (2024-04-14T07:06:12Z)
Robust Analysis of Multi-Task Learning Efficiency: New Benchmarks on Light-Weighed Backbones and Effective Measurement of Multi-Task Learning Challenges by Feature Disentanglement [69.51496713076253]
本稿では,既存のMTL手法の効率性に焦点をあてる。バックボーンを小さくしたメソッドの大規模な実験と,MetaGraspNetデータセットを新しいテストグラウンドとして実施する。また,MTLにおける課題の新規かつ効率的な識別子として,特徴分散尺度を提案する。
論文参考訳（メタデータ） (2024-02-05T22:15:55Z)
Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文参考訳（メタデータ） (2023-10-28T04:07:58Z)
MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文参考訳（メタデータ） (2023-03-26T21:12:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。