論文の概要: Process Reward Models Meet Planning: Generating Precise and Scalable Datasets for Step-Level Rewards
- arxiv url: http://arxiv.org/abs/2604.17957v1
- Date: Mon, 20 Apr 2026 08:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.769478
- Title: Process Reward Models Meet Planning: Generating Precise and Scalable Datasets for Step-Level Rewards
- Title(参考訳): Process Reward Models Meet Planning: ステップレベルリワードのための正確でスケーラブルなデータセットの生成
- Authors: Raffaele Pisano, Roberto Navigli,
- Abstract要約: この研究は、論理的問題を計画したPRMデータセット生成に対して、新しくスケーラブルなアプローチを導入している。
我々はPDDLドメインをまたいだ約100万の推論ステップのコーパスを生成し、PRMのトレーニングに使用します。
実験結果から,PDDLから得られたデータを用いて広く使用されているPRMトレーニングデータセットを増大させることにより,数学的および非数学的推論において大幅な改善が得られた。
- 参考スコア(独自算出の注目度): 38.453862515879514
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Process Reward Models (PRMs) have emerged as a powerful tool for providing step-level feedback when evaluating the reasoning of Large Language Models (LLMs), which frequently produce chains of thought (CoTs) containing errors even when the final answer is correct. However, existing PRM datasets remain expensive to construct, prone to annotation errors, and predominantly limited to the mathematical domain. This work introduces a novel and scalable approach to PRM dataset generation based on planning logical problems expressed in the Planning Domain Definition Language (PDDL). Using this method, we generate a corpus of approximately one million reasoning steps across various PDDL domains and use it to train PRMs. Experimental results show that augmenting widely-used PRM training datasets with PDDL-derived data yields substantial improvements in both mathematical and non-mathematical reasoning, as demonstrated across multiple benchmarks. These findings indicate that planning problems constitute a scalable and effective resource for generating robust, precise, and fine-grained training data for PRMs, going beyond the classical mathematical sources that dominate this field.
- Abstract(参考訳): プロセスリワードモデル(Process Reward Models, PRMs)は, 大規模言語モデル(LLMs)の推論において, 最終回答が正しい場合でも, エラーを含む思考(CoTs)の連鎖を頻繁に生成する, ステップレベルのフィードバックを提供する強力なツールとして登場した。
しかし、既存のPRMデータセットは構築に費用がかかり、アノテーションのエラーが発生しやすいため、主に数学的領域に限られている。
本研究は,計画ドメイン定義言語(PDDL)で表される論理的問題の計画に基づく,PRMデータセット生成に対する新規でスケーラブルなアプローチを導入する。
この手法を用いて,PDDL領域にまたがる約100万の推論ステップのコーパスを生成し,PRMのトレーニングに使用する。
実験結果から,PDDL由来のデータを用いた広範に使用されているPRMトレーニングデータセットの強化は,複数のベンチマークで示されているように,数学的および非数学的推論に大きな改善をもたらすことが示された。
これらの結果から,計画問題はPRMの堅牢で正確できめ細かなトレーニングデータを生成するための,スケーラブルで効果的な資源となっていることが示唆された。
関連論文リスト
- TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning [77.01182934427095]
TaTTooは、ツールベースの検証を統合し、正確な報酬管理を提供する新しいテーブルグラウンドのPRMフレームワークである。
私たちはTTTooを2段階のパラダイムでトレーニングします。ツール使用推論パターンをキャプチャするために、コールドスタートの教師による微調整を行い、続いて強化学習を行い、私たちのモデルをテーブルベースの検証と整合させます。
論文 参考訳(メタデータ) (2025-10-07T17:59:41Z) - Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning [10.227089771963943]
本稿では,自動プロセス報酬データ構築のための不確実性駆動型フレームワークを提案する。
本稿では,2つの一般的な不確実性を考慮した出力アグリゲーション手法を提案する。
ProcessBench、MATH、GSMPlusの実験では、提案したPRMデータ構築フレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2025-08-03T14:14:13Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning [32.943971698086735]
マルチモーダルPRMのためのドメイン重み付けトレーニングフレームワークであるDreamPRMを紹介する。
低レベルの最適化では、DreamPRMはドメイン重み付き複数のデータセットで微調整を行う。
上位レベルの最適化では、PRMは別個のメタ学習データセットで評価される。
論文 参考訳(メタデータ) (2025-05-26T17:20:17Z) - From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling [32.72867198629561]
プレトレーニングと報奨モデルトレーニング FLOP の相互作用について検討し,PRM の効率と精度への影響を評価する。
以上の結果から,数式データセットに基づいてトレーニングしたPRMは,コード生成に適した性能を示すことがわかった。
論文 参考訳(メタデータ) (2025-05-24T12:44:15Z) - Beyond the First Error: Process Reward Models for Reflective Mathematical Reasoning [49.21525229904197]
本研究では,長いCoT推論プロセスのスコアリングに特化して設計されたPRMのための新しいデータアノテーション手法を提案する。
本稿では, 誤り伝播と誤認識の概念を導入し, PRMの効果的な自己訂正行動と誤ったステップに基づく推論の両方を識別する能力を高めた。
我々のPRMは,探索誘導,BoN,F1スコアなど,様々な指標で優れた性能を実現している。
論文 参考訳(メタデータ) (2025-05-20T14:12:05Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。