論文の概要: Multi-Turn Code Generation Through Single-Step Rewards
- arxiv url: http://arxiv.org/abs/2502.20380v1
- Date: Thu, 27 Feb 2025 18:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:35.496920
- Title: Multi-Turn Code Generation Through Single-Step Rewards
- Title(参考訳): シングルステップリワードによるマルチターンコード生成
- Authors: Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury,
- Abstract要約: 既存のメソッドはフィードバックなしでコードを生成するか、多ターン報酬を最適化するために複雑な階層的な強化学習を使用する。
我々は,単一ステップの報酬のみを用いて,マルチターンコード生成を解決する,シンプルでスケーラブルなアプローチである$mu$Codeを提案する。
- 参考スコア(独自算出の注目度): 68.05767417891057
- License:
- Abstract: We address the problem of code generation from multi-turn execution feedback. Existing methods either generate code without feedback or use complex, hierarchical reinforcement learning to optimize multi-turn rewards. We propose a simple yet scalable approach, $\mu$Code, that solves multi-turn code generation using only single-step rewards. Our key insight is that code generation is a one-step recoverable MDP, where the correct code can be recovered from any intermediate code state in a single turn. $\mu$Code iteratively trains both a generator to provide code solutions conditioned on multi-turn execution feedback and a verifier to score the newly generated code. Experimental evaluations show that our approach achieves significant improvements over the state-of-the-art baselines. We provide analysis of the design choices of the reward models and policy, and show the efficacy of $\mu$Code at utilizing the execution feedback. Our code is available at https://github.com/portal-cornell/muCode.
- Abstract(参考訳): マルチターン実行フィードバックによるコード生成の問題に対処する。
既存のメソッドはフィードバックなしでコードを生成するか、多ターン報酬を最適化するために複雑な階層的な強化学習を使用する。
単一ステップの報酬のみを使用して、マルチターンコード生成を解決するシンプルなアプローチである$\mu$Codeを提案する。
私たちのキーとなる洞察は、コード生成は1ステップの回復可能なMDPであり、正しいコードを任意の中間コード状態から1ターンで復元できるということです。
$\mu$Codeは、複数ターンの実行フィードバックに条件付きコードソリューションを提供するジェネレータと、新たに生成されたコードを評価する検証器の両方を反復的にトレーニングする。
実験により,本手法は最先端のベースラインよりも大幅に改善されていることが明らかとなった。
本稿では、報酬モデルとポリシーの設計選択の分析を行い、実行フィードバックを利用するための$\mu$Codeの有効性を示す。
私たちのコードはhttps://github.com/portal-cornell/muCode.comで利用可能です。
関連論文リスト
- GenX: Mastering Code and Test Generation with Execution Feedback [7.225594526057816]
本稿では,コード生成モデルとテスト生成モデルを同時にトレーニングする新しい手法を提案する。
テストデータとコードデータの増大のための2つの戦略と、コードとテストランキングのための新しいスコアリング機能を導入します。
その結果、我々のモデルは、テストケースやコードソリューションの数の増加で反復的にトレーニングされた場合、元のデータセットでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2024-12-18T03:18:21Z) - ConAIR:Consistency-Augmented Iterative Interaction Framework to Enhance the Reliability of Code Generation [17.68163468068264]
コード生成, ConAIR の信頼性を高めるために, 一貫性を付加した反復的相互作用フレームワークを提案する。
人間の努力を最小限に抑えることで、パフォーマンスを大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-11-23T15:26:24Z) - Sifting through the Chaff: On Utilizing Execution Feedback for Ranking the Generated Code Candidates [46.74037090843497]
大規模言語モデル(LLM)は、自然言語記述に基づいたコードの自動生成によって、開発者がプログラミングにアプローチする方法を変えつつある。
本稿では,実行フィードバックを活用するコードランキングの革新的なアプローチである RankEF について述べる。
3つのコード生成ベンチマークの実験では、RanEFが最先端のCodeRankerよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-26T01:48:57Z) - DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T07:10:36Z) - Top Pass: Improve Code Generation by Pass@k-Maximized Code Ranking [11.109866941442641]
Top Passは、多数の候補からの潜在的な正しいソリューションを特定する、コードランキングのアプローチである。
これにより、ユーザは可能な限り少ない試行で正しいソリューションを見つけることができる。
論文 参考訳(メタデータ) (2024-08-11T07:53:51Z) - Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass [72.07642648108849]
Superposed Decodingは、1つの自己回帰推論パスのコストで$k$のドラフトを生成する新しい復号アルゴリズムである。
Superposed Decodingは、他のデコード戦略と組み合わせることで、推論時間計算のスケーリング時に普遍的なカバレッジが向上する。
論文 参考訳(メタデータ) (2024-05-28T17:40:48Z) - Functional Overlap Reranking for Neural Code Generation [6.665515707408405]
SRankは、コード生成から最良のソリューションを選択するための、新しいランク付け戦略である。
ソリューションクラスタ間の機能の重複を定量化することにより、私たちのアプローチは、コードソリューションのより良いランキング戦略を提供します。
実験結果から,pass@1のスコアで顕著な結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-16T22:20:31Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - InCoder: A Generative Model for Code Infilling and Synthesis [88.46061996766348]
InCoderは、プログラム合成(左から右への生成)と編集(埋め込み)が可能な統合生成モデルである。
InCoderは、許可されたコードの大きなコーパスからコードファイルを生成するように訓練されている。
私たちのモデルは、ゼロショットコードの埋め込みを直接実行できる最初の生成モデルです。
論文 参考訳(メタデータ) (2022-04-12T16:25:26Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。