論文の概要: FunPRM: Function-as-Step Process Reward Model with Meta Reward Correction for Code Generation
- arxiv url: http://arxiv.org/abs/2601.22249v1
- Date: Thu, 29 Jan 2026 19:14:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.022315
- Title: FunPRM: Function-as-Step Process Reward Model with Meta Reward Correction for Code Generation
- Title(参考訳): FunPRM: コード生成のためのメタリワード補正付き関数・アズ・ステップ・プロセス・リワードモデル
- Authors: Ruiyi Zhang, Peijia Qin, Qi Cao, Eric Xue, Pengtao Xie,
- Abstract要約: コード生成は大規模言語モデル(LLM)のコアアプリケーションである
関数にまとめられたコード生成を促進するために,FunPRMを提案する。
FunPRMは、より読みやすく、再利用可能なコードを生成する。
- 参考スコア(独自算出の注目度): 28.329829729546002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code generation is a core application of large language models (LLMs), yet LLMs still frequently fail on complex programming tasks. Given its success in mathematical reasoning, test-time scaling approaches such as Process Reward Model (PRM)-based Best-of-N selection offer a promising way to improve performance. However, existing PRMs remain ineffective for code generation due to the lack of meaningful step decomposition in code and the noise of Monte Carlo-estimated partial-solution correctness scores (rewards). To address these challenges, we propose FunPRM. FunPRM prompts LLMs to encourage modular code generation organized into functions, with functions treated as PRM reasoning steps. Furthermore, FunPRM introduces a novel meta-learning-based reward correction mechanism that leverages clean final-solution rewards obtained via a unit-test-based evaluation system to purify noisy partial-solution rewards. Experiments on LiveCodeBench and BigCodeBench demonstrate that FunPRM consistently outperforms existing test-time scaling methods across five base LLMs, notably achieving state-of-the-art performance on LiveCodeBench when combined with O4-mini. Furthermore, FunPRM produces code that is more readable and reusable for developers.
- Abstract(参考訳): コード生成は大規模言語モデル(LLM)のコアアプリケーションであるが、LLMは複雑なプログラミングタスクで失敗することが多い。
数学的推論の成功を考えると、Process Reward Model(PRM)ベースのBest-of-Nセレクションのようなテストタイムスケーリングアプローチは、パフォーマンスを改善するための有望な方法である。
しかし、既存のPRMは、コードにおける意味のあるステップ分解の欠如とモンテカルロが推定した部分解法精度スコア(逆)のノイズのため、コード生成には効果が残っていない。
これらの課題に対処するため,FunPRMを提案する。
FunPRM は LLM に対して,関数を PRM 推論ステップとして扱うことで,モジュール型コード生成を機能として促進するように促している。
さらに、FunPRMは、単体テストに基づく評価システムを通じて得られたクリーンな最終ソリューション報酬を利用して、ノイズのある部分ソリューション報酬を浄化する、新しいメタラーニングベースの報酬補正機構を導入する。
LiveCodeBenchとBigCodeBenchの実験は、FunPRMが5つのベースLLMで既存のテストタイムスケーリングメソッドを一貫して上回り、特にO4-miniと組み合わせてLiveCodeBenchで最先端のパフォーマンスを達成することを実証している。
さらにFunPRMは、より読みやすく、再利用可能なコードを生成する。
関連論文リスト
- DreamPRM-Code: Function-as-Step Process Reward Model with Label Correction for LLM Coding [30.131052926559956]
本稿では,関数を推論ステップとして扱う符号化型PRMであるDreamPRM-Codeを提案する。
ラベルノイズに対処するため、DreamPRM-Codeはメタラーニングに基づく補正機構を導入した。
テスト時間のスケーリングを適用することで、DreamPRM-Codeは80.9pass@1レートでLiveCodeBenchで最先端のパフォーマンスを達成し、OpenAI o4-miniを上回った。
論文 参考訳(メタデータ) (2025-12-17T01:11:35Z) - Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。
この知見に触発されて、我々はLanguage Rankerを提案する。
実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文 参考訳(メタデータ) (2025-10-23T17:56:46Z) - SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search [58.116954449750544]
多様な最適化問題を解決するために,テスト時間スケーリングを活用したトレーニング不要のフレームワークを導入する。
直接的に解くのではなく、数学的定式化を生成し、新しいモンテカルロ木探索戦略によって導かれる解法対応のコードに変換する。
論文 参考訳(メタデータ) (2025-10-19T16:21:19Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning [35.429904556288996]
我々は、コード検証を伴う明示的なChain-of-Thought(CoT)推論を行う生成プロセス報酬モデルGenPRMを紹介する。
実験の結果,GenPRMはMATHデータセットから23Kのトレーニングデータしか得られず,従来のPRMよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-04-01T15:21:05Z) - Process Supervision-Guided Policy Optimization for Code Generation [15.943210767010045]
単体テストフィードバックによる強化学習(RL)は、大規模言語モデルのLLM(LLM)コード生成を強化したが、完全なコード評価後にのみ提供されるスパース報酬に依存している。
本稿では,人間のコード修正を模倣したプロセス・リワード・モデル(PRM)を提案する。
論文 参考訳(メタデータ) (2024-10-23T07:22:33Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。
以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。
また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文 参考訳(メタデータ) (2023-11-10T01:35:51Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。