Fugu-MT 論文翻訳(概要): EvoGPT: Enhancing Test Suite Robustness via LLM-Based Generation and Genetic Optimization

論文の概要: EvoGPT: Enhancing Test Suite Robustness via LLM-Based Generation and Genetic Optimization

arxiv url: http://arxiv.org/abs/2505.12424v1
Date: Sun, 18 May 2025 13:48:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.226343
Title: EvoGPT: Enhancing Test Suite Robustness via LLM-Based Generation and Genetic Optimization
Title（参考訳）: EvoGPT: LLMに基づく生成と遺伝的最適化によるテストスイートロバストネスの向上
Authors: Lior Broide, Roni Stern,
Abstract要約: 大規模言語モデル(LLM)は、最近、自動ユニットテスト生成のための有望なツールとして登場した。我々は,LLMベースのテスト生成と進化的検索技術を統合したEvoGPTというハイブリッドフレームワークを導入し,多種多様な欠陥検出ユニットテストを作成する。
参考スコア（独自算出の注目度）: 11.050047263054985
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have recently emerged as promising tools for automated unit test generation. We introduce a hybrid framework called EvoGPT that integrates LLM-based test generation with evolutionary search techniques to create diverse, fault-revealing unit tests. Unit tests are initially generated with diverse temperature sampling to maximize behavioral and test suite diversity, followed by a generation-repair loop and coverage-guided assertion enhancement. The resulting test suites are evolved using genetic algorithms, guided by a fitness function prioritizing mutation score over traditional coverage metrics. This design emphasizes the primary objective of unit testing-fault detection. Evaluated on multiple open-source Java projects, EvoGPT achieves an average improvement of 10% in both code coverage and mutation score compared to LLMs and traditional search-based software testing baselines. These results demonstrate that combining LLM-driven diversity, targeted repair, and evolutionary optimization produces more effective and resilient test suites.
Abstract（参考訳）: 大規模言語モデル(LLM)は、最近、自動ユニットテスト生成のための有望なツールとして登場した。我々は,LLMベースのテスト生成と進化的検索技術を統合したEvoGPTというハイブリッドフレームワークを導入し,多種多様な欠陥検出ユニットテストを作成する。ユニットテストは最初、振る舞いとテストスイートの多様性を最大化するために多様な温度サンプリングで生成され、その後、世代再生ループとカバレッジ誘導アサーションの強化が続く。得られたテストスイートは、従来のカバレッジメトリクスよりも突然変異スコアを優先する適合関数によって導かれる遺伝的アルゴリズムを使用して進化する。この設計は、単体テスト-デフォルト検出の主要な目的を強調している。複数のオープンソースプロジェクトで評価されているEvoGPTは、LLMや従来の検索ベースのソフトウェアテストベースラインと比較して、コードカバレッジと突然変異スコアの両方で平均10%の改善を実現している。これらの結果から, LLMによる多様性, 対象修復, および進化的最適化を組み合わせることにより, より効率的でレジリエントなテストスイートが実現された。

関連論文リスト

Individual Turing Test: A Case Study of LLM-based Simulation Using Longitudinal Personal Data [54.145424717168794]
大きな言語モデル(LLM)は、目覚ましい人間のような能力を示しているが、特定の個人を複製する能力は未発見のままである。本稿では,10年以上にわたるプライベートメッセージ履歴のボランティア配信アーカイブを用いて,LSMに基づく個人シミュレーションのケーススタディを提案する。本研究は,ボランティアの知人が,最も有望な多候補プール内の応答を正確に識別できるかどうかを評価するための「個別チューリングテスト」を提案する。
論文参考訳（メタデータ） (2026-03-01T21:46:27Z)
Test vs Mutant: Adversarial LLM Agents for Robust Unit Test Generation [9.439427795905637]
LLM(Large Language Model)ベースの手法は、より可読性の高いテストを生成するが、しばしば低カバレッジとコンパイル性に悩まされる。本稿では,LLMを用いたテストケース生成のための新しい逆フレームワークであるAdverTestを提案する。提案手法は, 既存のLLM法よりも8.56%, EvoSuiteより63.30%, 故障検出率の向上を図っている。
論文参考訳（メタデータ） (2026-02-08T22:34:30Z)
ATGen: Adversarial Reinforcement Learning for Test Case Generation [78.48498301767079]
大きな言語モデル(LLM)はコード生成に優れていますが、その出力には微妙なバグが伴います。既存のテスト生成方法は静的データセットに依存している。我々は,対戦型強化学習を通じてテストケースジェネレータを訓練するフレームワークであるATGenを紹介する。
論文参考訳（メタデータ） (2025-10-16T12:49:25Z)
LLAMA: Multi-Feedback Smart Contract Fuzzing Framework with LLM-Guided Seed Generation [56.84049855266145]
進化的突然変異戦略とハイブリッドテスト技術を統合したマルチフィードバックスマートコントラクトファジリングフレームワーク(LLAMA)を提案する。 LLAMAは、91%の命令カバレッジと90%のブランチカバレッジを達成すると同時に、148の既知の脆弱性のうち132が検出される。これらの結果は、現実のスマートコントラクトセキュリティテストシナリオにおけるLAMAの有効性、適応性、実用性を強調している。
論文参考訳（メタデータ） (2025-07-16T09:46:58Z)
Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
Hallucination to Consensus: Multi-Agent LLMs for End-to-End Test Generation with Accurate Oracles [2.908307411619051]
ユニットテストは、ソフトウェアの正しさを保証する上で重要な役割を担います。従来の手法は、テストを生成するために検索ベースまたはランダム化アルゴリズムに依存していた。我々は、JUnitテストの自動生成のための新しいエンドツーエンドのプロンプトベースのフレームワークであるCANDORを提案する。
論文参考訳（メタデータ） (2025-06-03T14:43:05Z)
PRIMG : Efficient LLM-driven Test Generation Using Mutant Prioritization [0.0]
PRIMG(Prioritization and Refinement Integrated Mutation-driven Generation)は、Solidityスマートコントラクトのためのインクリメンタルで適応的なテストケース生成のための新しいフレームワークである。 PRIMGは突然変異優先順位付けモジュールを統合し、ミュータント置換グラフに基づいてトレーニングされた機械学習モデルを用いて、生き残ったミュータントの有用性を予測する。優先順位付けモジュールはランダムなミュータント選択を一貫して上回り、計算労力を削減したハイインパクトテストの生成を可能にした。
論文参考訳（メタデータ） (2025-05-08T18:30:22Z)
Generate, Discriminate, Evolve: Enhancing Context Faithfulness via Fine-Grained Sentence-Level Self-Evolution [61.80716438091887]
GenDiE (Generate, Discriminate, Evolve) は、微粒な文レベルの最適化によって文脈忠実性を高める新しい自己進化フレームワークである。応答中の各文を独立した最適化単位として扱うことで、GenDiEは以前のアプローチの限界に効果的に対処する。 ASQA(ドメイン内のLFQA)とConFiQAデータセットの実験は、GenDiEが忠実さと正しさの両方で様々なベースラインを超えることを示した。
論文参考訳（メタデータ） (2025-03-03T16:08:33Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文参考訳（メタデータ） (2025-02-19T15:32:11Z)
Adaptive Testing for LLM-Based Applications: A Diversity-based Approach [15.33985438101206]
本稿では,適応ランダムテスト(ART)のような多様性に基づくテスト手法が,プロンプトテンプレートのテストに効果的に適用可能であることを示す。いくつかの文字列ベース距離を探索する様々な実装を用いて得られた結果,本手法が試験予算の削減による故障の発見を可能にすることを確認した。
論文参考訳（メタデータ） (2025-01-23T08:53:12Z)
Test smells in LLM-Generated Unit Tests [16.061139428298986]
本稿では, LLM 生成単体試験におけるテスト臭拡散の大規模解析法として, マルチベンチマークを初めて提案する。本研究では,4つのLCM(GPT-3.5,GPT-4,Mistral 7B,Mixtral 8x7B)から20,505のクラスレベルスイート,TestBenchから972のメソッドレベルケース,14,469のEvoSuiteテスト,34,635のオープンソースJavaプロジェクトから779,585の人書きテストについて検討した。
論文参考訳（メタデータ） (2024-10-14T15:35:44Z)
UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models [88.16197692794707]
UniGenは、多様で正確で高度に制御可能なデータセットを作成するように設計された包括的なフレームワークである。データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。大規模な実験は、UniGenによって生成されたデータの優れた品質を示す。
論文参考訳（メタデータ） (2024-06-27T07:56:44Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。 SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文参考訳（メタデータ） (2024-01-31T18:21:49Z)
Machine Learning Testing in an ADAS Case Study Using Simulation-Integrated Bio-Inspired Search-Based Testing [7.5828169434922]
Deeperは、ディープニューラルネットワークベースの車線保持システムをテストするための障害検出テストシナリオを生成する。新たに提案されたバージョンでは、新しいバイオインスパイアされた検索アルゴリズム、遺伝的アルゴリズム(GA)、$(mu+lambda)$および$(mu,lambda)$進化戦略(ES)、およびParticle Swarm Optimization(PSO)を利用する。評価の結果,Deeperで新たに提案したテストジェネレータは,以前のバージョンよりも大幅に改善されている。
論文参考訳（メタデータ） (2022-03-22T20:27:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。