論文の概要: DreamPRM-Code: Function-as-Step Process Reward Model with Label Correction for LLM Coding
- arxiv url: http://arxiv.org/abs/2512.15000v1
- Date: Wed, 17 Dec 2025 01:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.819922
- Title: DreamPRM-Code: Function-as-Step Process Reward Model with Label Correction for LLM Coding
- Title(参考訳): DreamPRM-Code:LLM符号化のためのラベル補正付き関数・アズ・ステップ・プロセス・リワードモデル
- Authors: Ruiyi Zhang, Peijia Qin, Qi Cao, Pengtao Xie,
- Abstract要約: 本稿では,関数を推論ステップとして扱う符号化型PRMであるDreamPRM-Codeを提案する。
ラベルノイズに対処するため、DreamPRM-Codeはメタラーニングに基づく補正機構を導入した。
テスト時間のスケーリングを適用することで、DreamPRM-Codeは80.9pass@1レートでLiveCodeBenchで最先端のパフォーマンスを達成し、OpenAI o4-miniを上回った。
- 参考スコア(独自算出の注目度): 30.131052926559956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Process Reward Models (PRMs) have become essential for improving Large Language Models (LLMs) via test-time scaling, yet their effectiveness in coding remains limited due to the lack of meaningful step decompositions in code and the noise of Monte-Carlo-generated partial labels. We propose DreamPRM-Code, a coding-focused PRM that treats functions as reasoning steps using a Chain-of-Function prompting strategy to induce modular code generation, enabling PRM training and application analogous to mathematical reasoning tasks. To address label noise, DreamPRM-Code introduces a meta-learning-based correction mechanism that leverages clean final-solution unit-test labels and performs bi-level optimization to refine intermediate labels. Applying on test-time scaling, DreamPRM-Code achieved state-of-the-art performance on LiveCodeBench with 80.9 pass@1 rate, surpassing OpenAI o4-mini.
- Abstract(参考訳): プロセスリワードモデル(Process Reward Models, PRMs)は, テスト時間スケーリングによる大規模言語モデル(LLMs)の改善に不可欠だが, コード中の意味のあるステップ分解の欠如とモンテカルロ生成部分ラベルのノイズにより, コーディングの有効性は制限されている。
本稿では,関数を推論のステップとして扱うコード中心のPRMであるDreamPRM-Codeを提案し,モジュール型コード生成を誘導するChain-of-Functionプロンプト戦略を提案する。
ラベルノイズに対処するため、DreamPRM-Codeは、クリーンな最終ソリューションの単体テストラベルを活用し、中間ラベルを洗練するためのバイレベル最適化を行うメタラーニングベースの補正メカニズムを導入した。
テスト時間のスケーリングを適用することで、DreamPRM-Codeは80.9pass@1レートでLiveCodeBenchで最先端のパフォーマンスを達成し、OpenAI o4-miniを上回った。
関連論文リスト
- SynthCoder: A Synthetical Strategy to Tune LLMs for Code Completion [7.668823606571788]
コード補完は、ソフトウェア工学における大規模言語モデル(LLM)の顕著な応用である。
本稿では,Fill-in-the-Middle(FIM)コード補完タスクにおける最先端技術を実現するために,業界をリードするプラクティスを統合するモデルであるSynthCoderを提案する。
論文 参考訳(メタデータ) (2025-08-21T12:23:49Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - Generalizable Process Reward Models via Formally Verified Training Data [13.781401358802462]
FoVerは、正式な検証ツールによって自動的に注釈付けされた正確なステップレベルのエラーラベルでPRMトレーニングデータを合成するアプローチである。
実験により、FoVerでトレーニングされたPRMはクロスタスクの一般化を示し、単一のPRMが様々な推論タスクの検証を効果的に行えることを示した。
論文 参考訳(メタデータ) (2025-05-21T19:23:45Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Process Supervision-Guided Policy Optimization for Code Generation [15.943210767010045]
単体テストフィードバックによる強化学習(RL)は、大規模言語モデルのLLM(LLM)コード生成を強化したが、完全なコード評価後にのみ提供されるスパース報酬に依存している。
本稿では,人間のコード修正を模倣したプロセス・リワード・モデル(PRM)を提案する。
論文 参考訳(メタデータ) (2024-10-23T07:22:33Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。