論文の概要: Improving Small Language Models for Code Generation with Reinforcement Learning from Verification Feedback
- arxiv url: http://arxiv.org/abs/2605.30478v1
- Date: Thu, 28 May 2026 18:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.183817
- Title: Improving Small Language Models for Code Generation with Reinforcement Learning from Verification Feedback
- Title(参考訳): 検証フィードバックによる強化学習によるコード生成のための小言語モデルの改善
- Authors: Egor Skopin, Evgeny Kotelnikov,
- Abstract要約: 検証可能な(RLVR)言語モデルを用いた強化学習は、単体テスト結果を用いて訓練する。
MBPPベンチマークを用いたPythonコード生成のためのRLVRの実証的研究を行った。
その結果、コード生成におけるRLVRの有効性は、設計と最適化に非常に敏感であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) trains language models using programmatically checkable signals such as unit-test outcomes, enabling direct optimization for functional correctness in code generation. We conduct an empirical study of RLVR for Python code generation on the MBPP benchmark using two small models (Qwen3-0.6B and Llama3.2-1B) with LoRA fine-tuning. Across multiple reward formulations such as: unit-test-only rewards, static-analysis-only shaping via the Ruff linter, and a combined reward, we compare group-based policy optimization variants (GRPO and GSPO) and evaluate both functional correctness and behavioral diagnostics. In our experimental setting, RLVR improves pass@1 on MBPP test by up to 13 percentage points under proposed combined reward configuration. However, we find that reward shaping can induce systematic behavioral shifts: using only static-analysis penalties may bias the policy toward shorter completions that reduce lint errors without reliably improving functional correctness. In contrast, combined rewards mitigate this degeneration and yield more stable trade-offs between correctness and style constraints. Overall, our results highlight that RLVR effectiveness for code generation is highly sensitive to reward design and optimization granularity, and that diagnostics beyond pass@1, including generation length, Ruff severity profiles, and execution error types are useful for identifying failure modes.
- Abstract(参考訳): 検証可能な報酬(RLVR)を用いた強化学習は、単体テスト結果などのプログラムでチェック可能な信号を使用して言語モデルを訓練し、コード生成における機能的正しさの直接最適化を可能にする。
MBPPベンチマークでは,LoRAファインチューニングを用いた2つの小型モデル(Qwen3-0.6BとLlama3.2-1B)を用いて,Pythonコード生成のためのRLVRを実証的研究を行った。
単位-テストのみの報酬、Ruff linterによる静的分析のみの報酬、および組み合わせの報酬、グループベースのポリシー最適化の変種(GRPOとGSPO)を比較し、機能的正当性と行動的診断の両方を評価する。
RLVRはMBPPテストのパス@1を最大13ポイント改善する。
しかし, 報酬形成は, 静的解析法のみを用いることで, 機能的正しさを確実に向上させることなく, リント誤差を低減し, 短い完了率に偏りが生じる可能性がある。
対照的に、複合報酬は、この退化を緩和し、正しさとスタイルの制約の間のより安定したトレードオフをもたらす。
全体として、コード生成におけるRLVRの有効性は設計と最適化の粒度に非常に敏感であり、生成長、Ruff重大度プロファイル、実行エラータイプを含むpass@1を超える診断は、障害モードの識別に有用である。
関連論文リスト
- Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards [73.44333771806282]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効なパラダイムとして登場した。
本稿では,RLVRの簡易かつ効果的な拡張であるCIPO(Correction-Oriented Policy Optimization)を提案する。
CIPOは学習効率を向上し、モデルが自身のエラーを修正する能力を明示的に強化する。
論文 参考訳(メタデータ) (2026-05-14T08:22:21Z) - Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward [69.99652051809737]
本研究では,検証自由な内在性勾配項再帰(VIGOR)を提案する。
VIGORはポリシーモデルのみを使用する単純な報酬です。
数学データのみに基づいてトレーニングされた場合、コードベンチマークへのクロスドメイン転送を示す。
論文 参考訳(メタデータ) (2026-05-11T03:15:37Z) - MIST-RL: Mutation-based Incremental Suite Testing via Reinforcement Learning [19.054149750597933]
MIST-RL (Mutation-based Incremental Suite Testing via Reinforcement Learning) は、"スケーリング・バイ・ユーティリティ(scaling-by-utility)"に重点を移すフレームワークである。
我々は,機能的に等価なアサーションを抑えながら,新たな欠陥を発見するモデルにインセンティブを与える,動的ペナルティと組み合わされた新たなインクリメンタル突然変異報酬を導入する。
HumanEval+とMBPP+の実験は、MIST-RLが最先端のベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2026-03-02T03:22:44Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - IR$^3$: Contrastive Inverse Reinforcement Learning for Interpretable Detection and Mitigation of Reward Hacking [67.20568716300272]
Reinforcement Learning from Human Feedback (RLHF)は強力なLDMアライメントを実現するが、報酬ハッキングを導入することができる。
IR3(Interpretable Reward Reconstruction and Rectification)は,RLHFモデルを用いた暗黙的目標をリバースエンジニアリングし,解釈し,外科的に修復するフレームワークである。
我々は、IR3が地道報酬と0.89の相関を達成し、90%以上の精度でハッキング機能を識別し、元のモデルの3%以内の機能を維持しながら、ハッキングの挙動を著しく低減することを示した。
論文 参考訳(メタデータ) (2026-02-23T01:14:53Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values [53.72318444646282]
RLEV(Reinforcement Learning with Explicit Human Values)を提案する。
RLEVは、Large Language Model (LLM) 最適化を直接、定量化された人間の値信号と整合させる。
RLEVは、複数のRLアルゴリズムとモデルスケールで、精度のみのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-10-23T04:15:22Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。