論文の概要: Improving LLM Code Generation via Requirement-Aware Curriculum Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.00433v1
- Date: Fri, 01 May 2026 06:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.866375
- Title: Improving LLM Code Generation via Requirement-Aware Curriculum Reinforcement Learning
- Title(参考訳): 要求に配慮したカリキュラム強化学習によるLLMコード生成の改善
- Authors: Shouyu Yin, Zhao Tian, Junjie Chen, Shikai Guo,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に基づくコード生成の強化を目的とした,要求対応のカリキュラム強化学習フレームワークを提案する。
本稿では,RECRLがすべての最先端ベースラインに対して平均1.23%-5.62%のPass@1改善を実現していることを示す。
- 参考スコア(独自算出の注目度): 9.407248347872931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code generation, which aims to automatically generate source code from given programming requirements, has the potential to substantially improve software development efficiency. With the rapid advancement of large language models (LLMs), LLM-based code generation has attracted widespread attention from both academia and industry. However, as programming requirements become increasingly complex, existing LLMs still exhibit notable performance limitations. To address this challenge, recent studies have proposed training-based curriculum reinforcement learning (CRL) strategies to improve LLM code generation performance. Despite their effectiveness, existing CRL approaches suffer from several limitations, including misaligned requirement difficulty perception, the absence of requirement difficulty optimization, and suboptimal curriculum sampling strategies. In CRL-based code generation, programming requirements serve as the sole input to the model, making their quality and difficulty critical to training effectiveness. Motivated by insights from software requirements engineering, we propose RECRL, a novel requirement-aware curriculum reinforcement learning framework for enhancing LLM-based code generation. RECRL automatically perceives model-specific requirement difficulty, optimizes challenging requirements to improve training data utilization, and employs an adaptive curriculum sampling strategy to construct training batches with smoothly varying difficulty. Extensive experiments on five state-of-the-art LLMs across five widely-used code generation benchmarks by comparing with five state-of-the-art baselines, demonstrate the significant effectiveness of RECRL. For example, RECRL achieves an average Pass@1 improvement of 1.23%-5.62% over all state-of-the-art baselines.
- Abstract(参考訳): 与えられたプログラミング要件からソースコードを自動的に生成することを目的としたコード生成は、ソフトウェア開発の効率を大幅に改善する可能性がある。
大規模言語モデル(LLM)の急速な進歩により、LLMベースのコード生成は学術と産業の両方から広く注目を集めている。
しかし、プログラミングの要件がますます複雑化するにつれて、既存のLLMは依然として顕著な性能制限を呈している。
この課題に対処するために、近年の研究では、LLMコード生成性能を改善するための訓練ベースのカリキュラム強化学習(CRL)戦略を提案している。
その効果にもかかわらず、既存のCRLアプローチには、不整合要求難易度認識、要求難易度最適化の欠如、最適以下のカリキュラムサンプリング戦略など、いくつかの制限がある。
CRLベースのコード生成では、プログラミング要件がモデルへの唯一の入力として機能し、その品質と難易度をトレーニングの有効性に欠かせないものにしている。
ソフトウェア要件工学の知見を取り入れたRECRLは,LCMベースのコード生成を向上するための,新たな要件対応カリキュラム強化学習フレームワークである。
RECRLは、モデル固有の要件の難しさを自動的に認識し、トレーニングデータ利用を改善するための難易度要件を最適化し、適応型カリキュラムサンプリング戦略を用いて、スムーズに変化の少ないトレーニングバッチを構築する。
広く使われている5つのコード生成ベンチマークにおける5つの最先端LCMに関する大規模な実験は、5つの最先端ベースラインと比較し、RECRLの有効性を実証している。
例えばRECRLは、すべての最先端ベースラインに対して平均1.23%-5.62%のPass@1改善を実現している。
関連論文リスト
- Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。
本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:27:59Z) - Enhancing Code LLMs with Reinforcement Learning in Code Generation: A Survey [14.942504483776432]
コード生成と最適化のための重要なテクニックとして強化学習(RL)が登場した。
本稿では,コード最適化と生成におけるRLの適用について,系統的な調査を行った。
論文 参考訳(メタデータ) (2024-12-29T06:15:41Z) - Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。
実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-02-29T16:09:02Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - PerfRL: A Small Language Model Framework for Efficient Code Optimization [14.18092813639534]
本稿では,コード最適化の問題に対処する革新的なフレームワークPerfRLを紹介する。
我々のフレームワークは、小型言語モデル(SLM)と強化学習(RL)の機能を活用している。
提案手法は,より短いトレーニング時間とより小さな事前学習モデルを用いて,最先端モデルと比較して,類似あるいはより良い結果が得られる。
論文 参考訳(メタデータ) (2023-12-09T19:50:23Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。