論文の概要: Enhancing LLM Agents for Code Generation with Possibility and Pass-rate Prioritized Experience Replay
- arxiv url: http://arxiv.org/abs/2410.12236v1
- Date: Wed, 16 Oct 2024 04:54:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:43:44.560480
- Title: Enhancing LLM Agents for Code Generation with Possibility and Pass-rate Prioritized Experience Replay
- Title(参考訳): コード生成のためのLCMエージェントの強化とパスレート優先体験再生
- Authors: Yuyang Chen, Kaiyan Zhao, Yiming Wang, Ming Yang, Jian Zhang, Xiaoguang Niu,
- Abstract要約: BTPパイプラインは、ビームサーチサンプリング、テストフェーズ、優先されたエクスペリエンス再生フェーズの3つのフェーズで構成されている。
このアプローチでは、コードモデルによって収集された失敗プログラムを利用し、高い可能性とパスレート優先度を持つプログラムを再生する。
- 参考スコア(独自算出の注目度): 15.13572997624825
- License:
- Abstract: Nowadays transformer-based Large Language Models (LLM) for code generation tasks usually apply sampling and filtering pipelines. Due to the sparse reward problem in code generation tasks caused by one-token incorrectness, transformer-based models will sample redundant programs till they find a correct one, leading to low efficiency. To overcome the challenge, we incorporate Experience Replay (ER) in the fine-tuning phase, where codes and programs produced are stored and will be replayed to give the LLM agent a chance to learn from past experiences. Based on the spirit of ER, we introduce a novel approach called BTP pipeline which consists of three phases: beam search sampling, testing phase, and prioritized experience replay phase. The approach makes use of failed programs collected by code models and replays programs with high Possibility and Pass-rate Prioritized value (P2Value) from the replay buffer to improve efficiency. P2Value comprehensively considers the possibility of transformers' output and pass rate and can make use of the redundant resources caused by the problem that most programs collected by LLMs fail to pass any tests. We empirically apply our approach in several LLMs, demonstrating that it enhances their performance in code generation tasks and surpasses existing baselines.
- Abstract(参考訳): コード生成タスク用のトランスフォーマーベースの大規模言語モデル(LLM)は通常、サンプリングとフィルタリングパイプラインを適用する。
1-tokenの不正確さによって生じるコード生成タスクにおける報酬の問題のため、トランスフォーマーベースのモデルは、正しいプログラムを見つけるまで冗長プログラムをサンプリングし、効率を低下させる。
この課題を克服するために、我々は、コードやプログラムが格納され、LLMエージェントに過去の経験から学ぶ機会を与える微調整フェーズにエクスペリエンス・リプレイ(ER)を組み込む。
ERの精神に基づいて,ビームサーチサンプリング,テストフェーズ,優先経験再生フェーズという3つのフェーズからなる,BTPパイプラインと呼ばれる新しいアプローチを導入する。
このアプローチでは、コードモデルによって収集された失敗プログラムを利用し、リプレイバッファから高い可能性とパスレート優先値(P2Value)を持つプログラムをリプレイすることで効率を向上する。
P2Valueは、変換器の出力と通過率の可能性を包括的に検討し、LLMが収集するほとんどのプログラムがテストに合格できないという問題に起因する冗長なリソースを利用することができる。
提案手法をいくつかの LLM に適用し,コード生成タスクの性能向上と,既存のベースラインの超越を実証した。
関連論文リスト
- ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation [31.363781211927947]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
LLMはコード生成時にエラーの蓄積に影響を受けやすい。
コード生成のためのLLMにバックトラック機構とプログラム解析を統合したROCODEを提案する。
論文 参考訳(メタデータ) (2024-11-11T16:39:13Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Prompt Conditioned VAE: Enhancing Generative Replay for Lifelong
Learning in Task-Oriented Dialogue [80.05509768165135]
生成的再生法は、過去の知識と生成された擬似サンプルを統合するために広く用いられている。
既存の生成的再生法の多くは、モデルを制御するために単一のタスク固有のトークンのみを使用する。
本稿では,タスクの統計を取り入れて生成的再生を向上させるために,生涯学習のための新しい条件付きVAEを提案する。
論文 参考訳(メタデータ) (2022-10-14T13:12:14Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。