論文の概要: CodeScaler: Scaling Code LLM Training and Test-Time Inference via Execution-Free Reward Models
- arxiv url: http://arxiv.org/abs/2602.17684v1
- Date: Wed, 04 Feb 2026 17:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.517197
- Title: CodeScaler: Scaling Code LLM Training and Test-Time Inference via Execution-Free Reward Models
- Title(参考訳): CodeScaler: 実行不要リワードモデルによるコードLLMトレーニングとテスト時間推論のスケーリング
- Authors: Xiao Zhu, Xinyu Zhou, Boyu Zhu, Hanxu Hu, Mingzhe Du, Haotian Zhang, Huiming Wang, Zhijiang Guo,
- Abstract要約: コード生成のための強化学習トレーニングとテスト時間推論の両方をスケールするために設計された実行自由報酬モデル。
CodeScalerはQwen3-8Bベースを平均+11.72ポイント改善し、バイナリ実行ベースのRLを+1.82ポイント上回る。
- 参考スコア(独自算出の注目度): 32.910307078704996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) has driven recent progress in code large language models by leveraging execution-based feedback from unit tests, but its scalability is fundamentally constrained by the availability and reliability of high-quality test cases. We propose CodeScaler, an execution-free reward model designed to scale both reinforcement learning training and test-time inference for code generation. CodeScaler is trained on carefully curated preference data derived from verified code problems and incorporates syntax-aware code extraction and validity-preserving reward shaping to ensure stable and robust optimization. Across five coding benchmarks, CodeScaler improves Qwen3-8B-Base by an average of +11.72 points, outperforming binary execution-based RL by +1.82 points, and enables scalable reinforcement learning on synthetic datasets without any test cases. At inference time, CodeScaler serves as an effective test-time scaling method, achieving performance comparable to unit test approaches while providing a 10-fold reduction in latency. Moreover, CodeScaler surpasses existing reward models on RM-Bench not only in the code domain (+3.3 points), but also in general and reasoning domains (+2.7 points on average).
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR)は、ユニットテストからの実行ベースのフィードバックを活用することで、コード大言語モデルの最近の進歩を導いているが、そのスケーラビリティは、高品質のテストケースの可用性と信頼性によって、根本的に制約されている。
コード生成のための強化学習トレーニングとテスト時間推論の両方をスケールするために設計された,実行自由報酬モデルであるCodeScalerを提案する。
CodeScalerは、検証済みのコード問題から得られた厳密にキュレートされた選好データに基づいてトレーニングされており、安定的で堅牢な最適化を保証するために、構文認識型コード抽出と妥当性保持型報酬整形を取り入れている。
5つのコーディングベンチマークで、CodeScalerはQwen3-8B-Baseを平均+11.72ポイント改善し、バイナリ実行ベースのRLを+1.82ポイント向上させ、テストケースなしで合成データセット上でスケーラブルな強化学習を可能にする。
推論時に、CodeScalerは効果的なテスト時間スケーリング方法として機能し、単体テストのアプローチに匹敵するパフォーマンスを実現し、レイテンシを10倍削減する。
さらに、CodeScalerは、コードドメイン(+3.3ポイント)だけでなく、一般的な推論ドメイン(+2.7ポイント)でもRM-Benchの既存の報酬モデルを上回っている。
関連論文リスト
- CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Aletheia: What Makes RLVR For Code Verifiers Tick? [51.371034079170435]
Reinforcement Learning from Verifiable Rewards (RLVR)を通じてトレーニングされた検証は、Large Language Model (LLM)ポストトレーニングパイプラインの顕著なフィクスチャである。
コード検証は、実行フィードバックを得るのが難しいシナリオにおいて、モデル出力を判断する上で価値があります。
本稿では,RLVRを用いた検証学習手法の構成要素を検証し,その有効性を検証した。
論文 参考訳(メタデータ) (2026-01-17T22:30:45Z) - CodeRL+: Improving Code Generation via Reinforcement with Execution Semantics Alignment [98.87395842351627]
大きな言語モデル(LLM)は、巨大なコードコーパスから学習することで、コード生成において優れています。
テキストパターンのトレーニングと機能的正しさの目標の間には、基本的な意味的ギャップが残っている。
我々は、コード生成のためのRLVRトレーニングパイプラインに実行セマンティクスアライメントを統合する新しいアプローチであるCodeRL+を提案する。
論文 参考訳(メタデータ) (2025-10-21T09:48:06Z) - Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning [48.66688117533318]
本稿では,専用の報酬設計を備えた新しい強化学習フレームワークCUREを提案する。
CUREは、その相互作用の結果に基づいて、コーディングと単体テスト生成機能を共進化させる。
我々のモデルは,ベースモデルに基づく強化学習に有効な報奨モデルとして機能することを発見した。
論文 参考訳(メタデータ) (2025-06-03T17:58:42Z) - CRPE: Expanding The Reasoning Capability of Large Language Model for Code Generation [5.63821063617385]
CRPE(Code Reasoning Process Enhancer)は、データ合成とモデルトレーニングのためのフレームワークである。
我々は,コード生成タスクの大幅な改善を示す拡張COTコーダを開発した。
Qwen2.5-Coder-32B-BaseをベースとしたCOT-Coder-32B-StepDPOは,パス@1精度35.08で優れた性能を示し,ベンチマークではGPT4Oを上回った。
論文 参考訳(メタデータ) (2025-05-15T08:13:45Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Automatic Unit Test Data Generation and Actor-Critic Reinforcement
Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。
自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T17:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。