Fugu-MT 論文翻訳(概要): PPO guided Agentic Pipeline for Adaptive Prompt Selection and Test Case Generation

論文の概要: PPO guided Agentic Pipeline for Adaptive Prompt Selection and Test Case Generation

arxiv url: http://arxiv.org/abs/2605.00942v1
Date: Fri, 01 May 2026 06:19:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:49.501859
Title: PPO guided Agentic Pipeline for Adaptive Prompt Selection and Test Case Generation
Title（参考訳）: 適応型プロンプト選択とテストケース生成のためのPPO誘導エージェントパイプライン
Authors: Gourisetty Venkata Sai Koushik, Dama Aditya, Mahankali Harish Sai, Peddi Siddarhta, Shadab Ahmad, Vivek Yelleti,
Abstract要約: 本稿では,強化学習駆動型エージェントフレームワークを用いた新しいテストケース生成手法を提案する。フェーズ1では、ToT誘導最適化エージェントが冗長性を取り除き、ソースコードを分割し、最小化する。フェーズIIでは、8つの異なるプロンプト技術の中からプロンプトを選択する問題を解くために、PPOベースのポリシーネットワークを訓練する。 PPOエージェントは、ラインとブランチのカバレッジの増加、探索されていないブランチに対する罰則、ソースコードの長さを減らす報酬の組み合わせに基づいて報酬を受け取る。
参考スコア（独自算出の注目度）: 0.30786914102688595
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Developing effective test cases capable of thoroughly exercising large-scale software systems is inherently difficult, especially if such systems have voluminous, complex, and deeply nested source codes. In this work, we present a novel approach for generating test cases using a reinforcement learning-driven agentic framework where Proximal Policy Optimization (PPO) is coupled with an LLM engine to guide prompt selection during test generation. Our approach consists of two phases. In Phase I, the ToT-guided optimization agent partitions and minimizes the source code by removing redundancies without changing the functional behavior of the source code. In Phase II, a PPO-based policy network is trained to solve the problem of selecting prompts among eight different prompting techniques, such as Boundary Value Analysis, Random Fuzzing, etc., based on the inputted 11-dimensional state vector representing the source code complexity metrics and live coverage metrics to direct the LLM engine towards exploring unvisited paths in the program. The PPO agent receives rewards based on a combination of increases in line and branch coverages, penalties for unexplored branches, and rewards for reducing source code length. From experiments conducted on twenty benchmark programs, it is evident that the proposed approach, PPO-LLM, outperforms CBMC, kS-LLM, and kS-LLM++ in terms of branch and line coverage in almost all cases, for various loop bound values ranging from BOUND~1 to BOUND~2000. While at BOUND~1, the coverage of branches is 100\% using PPO-LLM on the PALS suite, in comparison, it is around 86.8\% using kS-LLM++. This confirms that adaptive prompt selection driven by PPO substantially outperforms static prompting strategies on PALS type programs.
Abstract（参考訳）: 大規模なソフトウェアシステムを徹底的に実行可能な効果的なテストケースの開発は、特に、華麗で複雑で、深くネストされたソースコードを持つ場合、本質的に困難である。本研究では, PPO(Proximal Policy Optimization)とLLMエンジンを結合した強化学習駆動型エージェントフレームワークを用いて, テストケースを生成する手法を提案する。私たちのアプローチは2つのフェーズから構成されます。フェーズ1では、ToT誘導最適化エージェントがソースコードの機能的振る舞いを変更することなく冗長性を取り除き、ソースコードを分割し、最小化する。フェーズIIでは、ソースコード複雑性メトリクスを表す入力された11次元状態ベクトルとライブカバレッジメトリクスに基づいて、境界値解析、ランダムファジングなどの8つのプロンプト技術の中からプロンプトを選択する問題を解くために、PPOベースのポリシーネットワークを訓練する。 PPOエージェントは、ラインとブランチのカバレッジの増加、探索されていないブランチに対する罰則、ソースコードの長さを減らす報酬の組み合わせに基づいて報酬を受け取る。 20のベンチマークプログラムで実施された実験から,提案手法であるPPO-LLMがCBMC,kS-LLM,kS-LLM++をほぼすべての場合において,BOUND~1からBOUND~2000までのループ境界値に対して上回っていることが明らかとなった。 BOUND~1 では、PALS スイートで PPO-LLM を使用してブランチのカバレッジが 100 % であるのに対し、kS-LLM++ では 86.8 % である。これは、PPOによって駆動される適応的なプロンプト選択がPALS型プログラムの静的プロンプト戦略を大幅に上回っていることを確認する。

関連論文リスト

PARM: Pipeline-Adapted Reward Model [60.769414637325326]
リワードモデル(RM)は、大規模言語モデル(LLM)を人間の好みと整合させることの中心であり、高度な復号化戦略を推進している。これまでの作業はシングルステップ生成に重点を置いていたが、現実のアプリケーションはますますマルチステージパイプラインを採用するようになっている。我々は、最適化のためのコード生成を通じてこれを調査し、報酬モデルを定式化とソリューション段階の両方に統合するパイプラインを構築する。
論文参考訳（メタデータ） (2026-04-20T14:29:08Z)
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks [41.49967840381499]
Sequence-Level PPO (SPPO) は、PPOのサンプルテキスト効率と結果ベースの更新の安定性を調和させるスケーラブルなアルゴリズムである。 SPPOは標準のPPOをはるかに上回り、計算量の多いグループベースの手法の性能に匹敵する。
論文参考訳（メタデータ） (2026-04-10T01:58:21Z)
POLCA: Stochastic Generative Optimization with LLM [26.342554900977003]
局所文脈を用いた優先順位付け最適化(POLCA)を導入する。 POLCAは、最適化におけるパラメータ性を扱うために設計されたスケーラブルなフレームワークである。我々は,POLCAが頑健,サンプル,時間効率の両立を実証した。
論文参考訳（メタデータ） (2026-03-16T03:07:44Z)
Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。 textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文参考訳（メタデータ） (2026-03-10T04:07:39Z)
SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference [4.955827313214081]
Prefill-Decode (P/D) のデアグリゲーションは,Large Language Model (LLM) 推論の最適化戦略として広く採用されている。現在、最適なP/Dハードウェアリソース数を決定するための確立された方法論は存在しない。理論的モデリングと経験的ベンチマークを組み合わせたハイブリッドアプローチを提案する。
論文参考訳（メタデータ） (2026-03-05T01:41:09Z)
GFlowPO: Generative Flow Network as a Language Model Prompt Optimizer [51.31263673158136]
GFlowPOは、メタプロンプト参照-LMにより正規化される潜在プロンプトに対する後部推論問題としてプロンプトをキャストする。 GFlowPOは、最近の離散的なプロンプト最適化ベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2026-02-03T10:30:03Z)
UPA: Unsupervised Prompt Agent via Tree-Based Search and Selection [29.332488308247623]
教師なしプロンプトエージェント(UPA)は、教師付きフィードバックに頼ることなく、構造化された探索と選択を実現する。 UPAはまず、不確実な条件下でのフィルタ候補に対する局所的な比較のパスワイドベイズアグリゲーションを行い、続いてグローバルなトーナメントスタイルの比較を行い、遅延したプロンプトの品質を推定する。
論文参考訳（メタデータ） (2026-01-30T18:39:09Z)
Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents [56.625878022978945]
自律的なエージェントとしての大規模言語モデル(LLM)は、複雑で長期にわたる問題の解決にますます取り組まれている。直接優先度最適化(DPO)は、正確なクレジット代入には大きすぎる信号を提供するが、ステップレベルのDPOは、しばしば、複数のステップの振る舞いの値をキャプチャするには、筋が通らない。階層的選好学習(HPL)は、複数の相乗的粒度における選好信号を活用することで、LLMエージェントを最適化する階層的フレームワークである。
論文参考訳（メタデータ） (2025-09-26T08:43:39Z)
Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。 Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。 MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文参考訳（メタデータ） (2025-07-07T03:20:52Z)
Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。 PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文参考訳（メタデータ） (2024-02-16T19:35:58Z)
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。 LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文参考訳（メタデータ） (2021-02-24T01:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。