論文の概要: EvoGPT: Enhancing Test Suite Robustness via LLM-Based Generation and Genetic Optimization
- arxiv url: http://arxiv.org/abs/2505.12424v1
- Date: Sun, 18 May 2025 13:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.226343
- Title: EvoGPT: Enhancing Test Suite Robustness via LLM-Based Generation and Genetic Optimization
- Title(参考訳): EvoGPT: LLMに基づく生成と遺伝的最適化によるテストスイートロバストネスの向上
- Authors: Lior Broide, Roni Stern,
- Abstract要約: 大規模言語モデル(LLM)は、最近、自動ユニットテスト生成のための有望なツールとして登場した。
我々は,LLMベースのテスト生成と進化的検索技術を統合したEvoGPTというハイブリッドフレームワークを導入し,多種多様な欠陥検出ユニットテストを作成する。
- 参考スコア(独自算出の注目度): 11.050047263054985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have recently emerged as promising tools for automated unit test generation. We introduce a hybrid framework called EvoGPT that integrates LLM-based test generation with evolutionary search techniques to create diverse, fault-revealing unit tests. Unit tests are initially generated with diverse temperature sampling to maximize behavioral and test suite diversity, followed by a generation-repair loop and coverage-guided assertion enhancement. The resulting test suites are evolved using genetic algorithms, guided by a fitness function prioritizing mutation score over traditional coverage metrics. This design emphasizes the primary objective of unit testing-fault detection. Evaluated on multiple open-source Java projects, EvoGPT achieves an average improvement of 10% in both code coverage and mutation score compared to LLMs and traditional search-based software testing baselines. These results demonstrate that combining LLM-driven diversity, targeted repair, and evolutionary optimization produces more effective and resilient test suites.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、自動ユニットテスト生成のための有望なツールとして登場した。
我々は,LLMベースのテスト生成と進化的検索技術を統合したEvoGPTというハイブリッドフレームワークを導入し,多種多様な欠陥検出ユニットテストを作成する。
ユニットテストは最初、振る舞いとテストスイートの多様性を最大化するために多様な温度サンプリングで生成され、その後、世代再生ループとカバレッジ誘導アサーションの強化が続く。
得られたテストスイートは、従来のカバレッジメトリクスよりも突然変異スコアを優先する適合関数によって導かれる遺伝的アルゴリズムを使用して進化する。
この設計は、単体テスト-デフォルト検出の主要な目的を強調している。
複数のオープンソースプロジェクトで評価されているEvoGPTは、LLMや従来の検索ベースのソフトウェアテストベースラインと比較して、コードカバレッジと突然変異スコアの両方で平均10%の改善を実現している。
これらの結果から, LLMによる多様性, 対象修復, および進化的最適化を組み合わせることにより, より効率的でレジリエントなテストスイートが実現された。
関連論文リスト
- PRIMG : Efficient LLM-driven Test Generation Using Mutant Prioritization [0.0]
PRIMG(Prioritization and Refinement Integrated Mutation-driven Generation)は、Solidityスマートコントラクトのためのインクリメンタルで適応的なテストケース生成のための新しいフレームワークである。
PRIMGは突然変異優先順位付けモジュールを統合し、ミュータント置換グラフに基づいてトレーニングされた機械学習モデルを用いて、生き残ったミュータントの有用性を予測する。
優先順位付けモジュールはランダムなミュータント選択を一貫して上回り、計算労力を削減したハイインパクトテストの生成を可能にした。
論文 参考訳(メタデータ) (2025-05-08T18:30:22Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - Adaptive Testing for LLM-Based Applications: A Diversity-based Approach [15.33985438101206]
本稿では,適応ランダムテスト(ART)のような多様性に基づくテスト手法が,プロンプトテンプレートのテストに効果的に適用可能であることを示す。
いくつかの文字列ベース距離を探索する様々な実装を用いて得られた結果,本手法が試験予算の削減による故障の発見を可能にすることを確認した。
論文 参考訳(メタデータ) (2025-01-23T08:53:12Z) - UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models [88.16197692794707]
UniGenは、多様で正確で高度に制御可能なデータセットを作成するように設計された包括的なフレームワークである。
データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、UniGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z) - Machine Learning Testing in an ADAS Case Study Using
Simulation-Integrated Bio-Inspired Search-Based Testing [7.5828169434922]
Deeperは、ディープニューラルネットワークベースの車線保持システムをテストするための障害検出テストシナリオを生成する。
新たに提案されたバージョンでは、新しいバイオインスパイアされた検索アルゴリズム、遺伝的アルゴリズム(GA)、$(mu+lambda)$および$(mu,lambda)$進化戦略(ES)、およびParticle Swarm Optimization(PSO)を利用する。
評価の結果,Deeperで新たに提案したテストジェネレータは,以前のバージョンよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-22T20:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。