論文の概要: Domain-Adaptable Reinforcement Learning for Code Generation with Dense Rewards
- arxiv url: http://arxiv.org/abs/2605.21180v1
- Date: Wed, 20 May 2026 13:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.701904
- Title: Domain-Adaptable Reinforcement Learning for Code Generation with Dense Rewards
- Title(参考訳): Dense Rewardsを用いたコード生成のためのドメイン適応型強化学習
- Authors: Erfan Aghadavoodi Jolfaei, Daniel Maninger, Abhinav Anand, Mert Tiftikci, Mira Mezini,
- Abstract要約: 大規模な言語モデルは、自動コード生成の可能性を強く示していますが、正確性、品質、安全性、ドメイン固有の制約の保証がありません。
本稿では、近似ポリシー最適化を用いて、事前学習したLLMを微調整する強化学習フレームワークを提案する。
MBPPでは絶対パス@1が19%増加し,RoboEvalでは51%低下した。
- 参考スコア(独自算出の注目度): 5.685583357665348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models show strong potential for automated code generation, but lack guarantees for correctness, quality, safety, and domain-specific constraints. For instance in robotics, where code generation is increasingly being used for planning and executing actions, awareness of the environment and physical constraints is critical. To facilitate the adaption of code-generating LLMs to diverse requirements, including domain-specific ones, we present a reinforcement learning framework that fine-tunes pre-trained LLMs using proximal policy optimization. Our customizable execution-aware reward formula captures and optimizes syntax, functional correctness, code style, security, and simulator executability. A token-level reward mapping mechanism enables effective credit assignment from execution outcomes to generated tokens. The framework is evaluated on general-purpose code generation (MBPP/MBPP+) and robotic program synthesis (RoboEval). The results show substantial improvements in functional correctness and simulator executability, including an absolute pass@1 increase of 19% on MBPP and a reduction in execution failures by 51% on RoboEval. These findings demonstrate that structured reinforcement learning can effectively align language models to correct program generation and domain-specific requirements.
- Abstract(参考訳): 大規模な言語モデルは、自動コード生成の可能性を強く示していますが、正確性、品質、安全性、ドメイン固有の制約の保証がありません。
例えば、アクションの計画と実行にコード生成がますます使われているロボティクスでは、環境に対する意識と物理的な制約が重要になります。
コード生成LDMをドメイン固有のものを含む多様な要件に適応させるため、近似ポリシー最適化を用いて事前学習LSMを微調整する強化学習フレームワークを提案する。
カスタマイズ可能な実行対応報酬式は、構文、機能的正確性、コードスタイル、セキュリティ、シミュレータ実行可能性をキャプチャし、最適化します。
トークンレベルの報酬マッピング機構は、実行結果から生成されたトークンへの効果的なクレジット割り当てを可能にする。
このフレームワークは汎用コード生成(MBPP/MBPP+)とロボットプログラム合成(RoboEval)に基づいて評価される。
MBPPでは絶対パス@1が19%増加し,RoboEvalでは51%低下した。
これらの結果から,構造化強化学習は,プログラム生成やドメイン固有要件の補正に言語モデルを効果的に整合させることができることが示唆された。
関連論文リスト
- VeriAgent: A Tool-Integrated Multi-Agent System with Evolving Memory for PPA-Aware RTL Code Generation [52.43796056267479]
高品質なベリログコード生成のためのPPA対応ツール統合マルチエージェントフレームワークを提案する。
当社のフレームワークでは,EDAツールをtextitProgrammer Agent, textitCorrectness Agent, textitPPA Agentで構成されるクローズドループワークフローに明示的に組み込んでいる。
モデル再トレーニングなしに継続的な改善をサポートするために,構造化メモリノードに最適化エクスペリエンスを外部化するtextitEvolved Memory Mechanismを導入する。
論文 参考訳(メタデータ) (2026-03-18T11:25:40Z) - CodeGrad: Integrating Multi-Step Verification with Gradient-Based LLM Refinement [12.792149709662874]
CodeGradは厳密な検証技術を反復生成ループに直接組み込む、原則化されたフレームワークを導入している。
コードを微分可能な変数として扱い、構造化されたフィードバックと数学的制約をテキストの擬似階調に変換する。
我々は,HumanEval,HumanEval+,LiveCodeBenchベンチマーク上でCodeGradを評価する。
論文 参考訳(メタデータ) (2025-08-12T22:03:54Z) - ChipSeek-R1: Generating Human-Surpassing RTL with LLM via Hierarchical Reward-Driven Reinforcement Learning [32.11086992218369]
ChipSeek-R1は、大規模な言語モデルのための階層的な報酬駆動強化学習フレームワークである。
関数的正当性とPPA最適化の両方のRTLコードを生成する。
RTLLMのベンチマークでは、ChipSeek-R1はオリジナルの人間の書いたコードのPPAメトリクスを超える27のRTL設計を作成した。
論文 参考訳(メタデータ) (2025-07-07T08:08:20Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - DeAL: Decoding-time Alignment for Large Language Models [58.368979253590794]
大規模言語モデル(LLM)は、現在、人間の好みに沿ったコンテンツを生成することが期待されている。
我々は,報酬関数をカスタマイズし,LLMの復号時間アライメントを可能にするフレームワークであるDeALを提案する。
論文 参考訳(メタデータ) (2024-02-05T06:12:29Z) - Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。
PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。
PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文 参考訳(メタデータ) (2023-01-31T18:02:26Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。