論文の概要: TestDecision: Sequential Test Suite Generation via Greedy Optimization and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.01799v1
- Date: Thu, 02 Apr 2026 09:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.630011
- Title: TestDecision: Sequential Test Suite Generation via Greedy Optimization and Reinforcement Learning
- Title(参考訳): TestDecision: グレディ最適化と強化学習による逐次テストスイート生成
- Authors: Guoqing Wang, Chengran Yang, Xiaoxuan Zhou, Zeyu Sun, Bo Wang, David Lo, Dan Hao,
- Abstract要約: MDPとしてテストスイートの生成を形式化し,その目的が単調な部分モジュラリティを示すことを示す。
本研究では,LSMを神経グリージーの専門家に変換するTestDecisionを提案する。
TestDecisionは既存の高度なメソッドよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 17.157244731153554
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid evolution of LLMs, automated software testing is witnessing a paradigm shift. While proprietary models like GPT-4o demonstrate impressive capabilities, their high deployment costs and data privacy concerns make open-source LLMs the practical imperative for many academic and industrial scenarios. In the field of automated test generation, it has evolved to iterative workflows to construct test suites based on LLMs. When utilizing open-source LLMs, we empirically observe they lack a suite-level perspective, suffering from structural myopia-failing to generate new tests with large marginal gain based on the current covered status. In this paper, from the perspective of sequences, we formalize test suite generation as a MDP and demonstrate that its objective exhibits monotone submodularity, which enables an effective relaxation of this NP-hard global optimization into a tractable step-wise greedy procedure. Guided by this insight, we propose TestDecision, which transforms LLMs into neural greedy experts. TestDecision consists of two synergistic components: (1) an inference framework which implements test suite construction following a step-wise greedy strategy; and (2) a training pipeline of reinforcement learning which equips the base LLM with sequential test generation ability to maximize marginal gain. Comprehensive evaluations on the ULT benchmark demonstrate that TestDecision significantly outperforms existing advanced methods. It brings an improvement between 38.15-52.37% in branch coverage and 298.22-558.88% in execution pass rate over all base models, achieving a comparable performance on 7B backbone with a much larger proprietary LLM GPT-5.2. Furthermore, TestDecision can find 58.43-95.45% more bugs than vanilla base LLMs and exhibit superior generalization on LiveCodeBench, proving its capability to construct high-quality test suites.
- Abstract(参考訳): LLMの急速な進化により、自動化されたソフトウェアテストはパラダイムシフトを目の当たりにしている。
GPT-4oのようなプロプライエタリなモデルは印象的な機能を示しているが、その高いデプロイメントコストとデータプライバシの懸念により、オープンソースのLLMは、多くの学術的、産業的シナリオにおいて実用上必須である。
自動テスト生成の分野では、LLMに基づいたテストスイートを構築するために反復的なワークフローへと進化してきた。
オープンソース LLM を利用する場合, スイートレベルの視点が欠如していること, 構造的なミオピア障害に悩まされ, 現状に基いて大きな限界ゲインを持つ新たなテストが生成されることを実証的に観察する。
本稿では、シーケンスの観点から、テストスイート生成をMDPとして形式化し、その目的が単調なサブモジュラリティを示すことを示す。
この知見に導かれて,LSMを神経グリージーの専門家に変換するTestDecisionを提案する。
TestDecisionは,(1)段階的欲求戦略に従ってテストスイート構築を実装する推論フレームワーク,(2)限界ゲインを最大化するための逐次テスト生成能力を備えた強化学習のトレーニングパイプライン,の2つの相乗的コンポーネントから構成される。
ULTベンチマークの総合的な評価は、TestDecisionが既存の高度なメソッドよりも大幅に優れていることを示している。
ブランチカバレッジは38.15-52.37%、ベースモデル全体の実行パスレートは298.22-558.88%改善され、7Bバックボーンに匹敵するパフォーマンスを実現した。
さらにTestDecisionは、バニラベースLLMよりも58.43-95.45%多くのバグを見つけ、LiveCodeBenchに優れた一般化を示し、高品質なテストスイートを構築する能力を示した。
関連論文リスト
- Code-A1: Adversarial Evolving of Code LLM and Test LLM via Reinforcement Learning [54.95476453942411]
コード生成のための強化学習は、単体テストのパスレートから検証可能な報酬に依存する。
最近のセルフプレイ手法は、1つのモデルでコードとテスト生成を統合する。
Code-A1は、人間のアノテーションによるテストでトレーニングされたコード生成のパフォーマンスマッチングまたはモデルを超えることを実現する。
論文 参考訳(メタデータ) (2026-03-16T17:58:13Z) - How well LLM-based test generation techniques perform with newer LLM versions? [5.763923049832854]
LLMのアプローチは、すべてのテスト有効性指標において、従来の最先端のアプローチよりも優れていることを示す。
テスト生成がより効率的であるプログラムクラスをまずターゲットとし,LLM要求数を削減する方法を提案する。
論文 参考訳(メタデータ) (2026-01-14T18:46:32Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Test smells in LLM-Generated Unit Tests [16.061139428298986]
本稿では, LLM 生成単体試験におけるテスト臭拡散の大規模解析法として, マルチベンチマークを初めて提案する。
本研究では,4つのLCM(GPT-3.5,GPT-4,Mistral 7B,Mixtral 8x7B)から20,505のクラスレベルスイート,TestBenchから972のメソッドレベルケース,14,469のEvoSuiteテスト,34,635のオープンソースJavaプロジェクトから779,585の人書きテストについて検討した。
論文 参考訳(メタデータ) (2024-10-14T15:35:44Z) - Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.517293765116307]
ユニットテストはソフトウェアの信頼性に不可欠だが、手動のテスト作成には時間がかかり、しばしば無視される。
本研究は,LLM生成単体テストの大規模評価をクラスレベルで行った最初の大規模評価である。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。
特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。