Fugu-MT 論文翻訳(概要): PRIMG : Efficient LLM-driven Test Generation Using Mutant Prioritization

論文の概要: PRIMG : Efficient LLM-driven Test Generation Using Mutant Prioritization

arxiv url: http://arxiv.org/abs/2505.05584v1
Date: Thu, 08 May 2025 18:30:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-12 20:40:10.043498
Title: PRIMG : Efficient LLM-driven Test Generation Using Mutant Prioritization
Title（参考訳）: PRIMG : 変異プライオリティ化を用いた効率的なLCM駆動テスト生成
Authors: Mohamed Salah Bouafif, Mohammad Hamdaqa, Edward Zulkoski,
Abstract要約: PRIMG(Prioritization and Refinement Integrated Mutation-driven Generation)は、Solidityスマートコントラクトのためのインクリメンタルで適応的なテストケース生成のための新しいフレームワークである。 PRIMGは突然変異優先順位付けモジュールを統合し、ミュータント置換グラフに基づいてトレーニングされた機械学習モデルを用いて、生き残ったミュータントの有用性を予測する。優先順位付けモジュールはランダムなミュータント選択を一貫して上回り、計算労力を削減したハイインパクトテストの生成を可能にした。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mutation testing is a widely recognized technique for assessing and enhancing the effectiveness of software test suites by introducing deliberate code mutations. However, its application often results in overly large test suites, as developers generate numerous tests to kill specific mutants, increasing computational overhead. This paper introduces PRIMG (Prioritization and Refinement Integrated Mutation-driven Generation), a novel framework for incremental and adaptive test case generation for Solidity smart contracts. PRIMG integrates two core components: a mutation prioritization module, which employs a machine learning model trained on mutant subsumption graphs to predict the usefulness of surviving mutants, and a test case generation module, which utilizes Large Language Models (LLMs) to generate and iteratively refine test cases to achieve syntactic and behavioral correctness. We evaluated PRIMG on real-world Solidity projects from Code4Arena to assess its effectiveness in improving mutation scores and generating high-quality test cases. The experimental results demonstrate that PRIMG significantly reduces test suite size while maintaining high mutation coverage. The prioritization module consistently outperformed random mutant selection, enabling the generation of high-impact tests with reduced computational effort. Furthermore, the refining process enhanced the correctness and utility of LLM-generated tests, addressing their inherent limitations in handling edge cases and complex program logic.
Abstract（参考訳）: 突然変異テストは、意図的なコード変異を導入することで、ソフトウェアテストスイートの有効性を評価し、向上させる手法として広く認識されている。しかし、そのアプリケーションは、開発者が特定のミュータントを殺すための多数のテストを生成し、計算オーバーヘッドを増大させるため、非常に大きなテストスイートをもたらすことが多い。本稿では,PRIMG(Prioritization and Refinement Integrated Mutation-driven Generation)を紹介する。 PRIMGは2つのコアコンポーネントを統合しており、ミュータント置換グラフに基づいて訓練された機械学習モデルを用いて、生き残ったミュータントの有用性を予測する突然変異優先順位付けモジュールと、Large Language Models (LLMs)を用いて、構文的および行動的正確性を達成するためにテストケースを反復的に生成・洗練するテストケース生成モジュールである。 Code4Arenaによる実世界のSolidityプロジェクトのPRIMGを評価し,変異点の改善と高品質なテストケースの生成の有効性を評価した。実験の結果, PRIMGは高い変異率を維持しつつ, テストスイートサイズを著しく減少させることがわかった。優先順位付けモジュールはランダムなミュータント選択を一貫して上回り、計算労力を削減したハイインパクトテストの生成を可能にした。さらに、精製プロセスはLLM生成テストの正確性と有用性を向上し、エッジケースや複雑なプログラムロジックを扱う際の固有の制限に対処した。

関連論文リスト

MIST-RL: Mutation-based Incremental Suite Testing via Reinforcement Learning [19.054149750597933]
MIST-RL (Mutation-based Incremental Suite Testing via Reinforcement Learning) は、"スケーリング・バイ・ユーティリティ(scaling-by-utility)"に重点を移すフレームワークである。我々は,機能的に等価なアサーションを抑えながら,新たな欠陥を発見するモデルにインセンティブを与える,動的ペナルティと組み合わされた新たなインクリメンタル突然変異報酬を導入する。 HumanEval+とMBPP+の実験は、MIST-RLが最先端のベースラインより優れていることを示した。
論文参考訳（メタデータ） (2026-03-02T03:22:44Z)
Test vs Mutant: Adversarial LLM Agents for Robust Unit Test Generation [9.439427795905637]
LLM(Large Language Model)ベースの手法は、より可読性の高いテストを生成するが、しばしば低カバレッジとコンパイル性に悩まされる。本稿では,LLMを用いたテストケース生成のための新しい逆フレームワークであるAdverTestを提案する。提案手法は, 既存のLLM法よりも8.56%, EvoSuiteより63.30%, 故障検出率の向上を図っている。
論文参考訳（メタデータ） (2026-02-08T22:34:30Z)
WITNESS: A lightweight and practical approach to fine-grained predictive mutation testing [22.980743296712856]
WITNESSは、新しい微細な予測突然変異試験手法である。トレーニングと予測には軽量な古典的機械学習モデルを使用する。さまざまなシナリオにわたる最先端の予測パフォーマンスを一貫して達成します。
論文参考訳（メタデータ） (2025-11-15T02:38:00Z)
ATGen: Adversarial Reinforcement Learning for Test Case Generation [78.48498301767079]
大きな言語モデル(LLM)はコード生成に優れていますが、その出力には微妙なバグが伴います。既存のテスト生成方法は静的データセットに依存している。我々は,対戦型強化学習を通じてテストケースジェネレータを訓練するフレームワークであるATGenを紹介する。
論文参考訳（メタデータ） (2025-10-16T12:49:25Z)
LLAMA: Multi-Feedback Smart Contract Fuzzing Framework with LLM-Guided Seed Generation [56.84049855266145]
進化的突然変異戦略とハイブリッドテスト技術を統合したマルチフィードバックスマートコントラクトファジリングフレームワーク(LLAMA)を提案する。 LLAMAは、91%の命令カバレッジと90%のブランチカバレッジを達成すると同時に、148の既知の脆弱性のうち132が検出される。これらの結果は、現実のスマートコントラクトセキュリティテストシナリオにおけるLAMAの有効性、適応性、実用性を強調している。
論文参考訳（メタデータ） (2025-07-16T09:46:58Z)
EvoGPT: Enhancing Test Suite Robustness via LLM-Based Generation and Genetic Optimization [11.050047263054985]
大規模言語モデル(LLM)は、最近、自動ユニットテスト生成のための有望なツールとして登場した。我々は,LLMベースのテスト生成と進化的検索技術を統合したEvoGPTというハイブリッドフレームワークを導入し,多種多様な欠陥検出ユニットテストを作成する。
論文参考訳（メタデータ） (2025-05-18T13:48:53Z)
Mutation Testing via Iterative Large Language Model-Driven Scientific Debugging [10.334617290353192]
我々は,Large Language Models (LLM) が変異体に対するテストを生成する上で,科学的計算が有効かどうかを評価する。 LLMは、より良い障害検出とカバレッジを持つテストを生成する上で、Pynguinを一貫して上回っている。重要なことは、テストケースの反復的な改善が高品質なテストスイートを実現する上で重要であるということだ。
論文参考訳（メタデータ） (2025-03-11T08:47:13Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Toward Automated Validation of Language Model Synthesized Test Cases using Semantic Entropy [0.5057850174013127]
現代の大規模言語モデル(LLM)ベースのプログラミングエージェントは、しばしば、生成されたコードを洗練するためにテスト実行フィードバックに依存する。本稿では,LLMが生成したテストケースの自動検証にセマンティックエントロピーを利用する新しいフレームワークVALTESTを紹介する。 VALTESTはテストの妥当性を最大29%向上し、パス@1スコアの大幅な増加によって証明されたコード生成のパフォーマンスが向上することを示している。
論文参考訳（メタデータ） (2024-11-13T00:07:32Z)
TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。本研究では,新しい単体テスト生成法であるTestARTを提案する。 TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文参考訳（メタデータ） (2024-08-06T10:52:41Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Precise Error Rates for Computationally Efficient Testing [67.30044609837749]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文参考訳（メタデータ） (2023-11-01T04:41:16Z)
Contextual Predictive Mutation Testing [17.832774161583036]
MutationBERTは、ソースメソッドの突然変異とテストメソッドを同時にエンコードする予測突然変異テストのアプローチである。精度が高いため、MutationBERTは、ライブミュータントをチェック・検証する以前のアプローチで費やされた時間の33%を節約する。我々は、入力表現と、テストマトリックスレベルからテストスイートレベルまで予測を引き上げるためのアグリゲーションアプローチを検証し、同様の性能改善を見出した。
論文参考訳（メタデータ） (2023-09-05T17:00:15Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。