論文の概要: From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2506.00027v1
- Date: Sat, 24 May 2025 12:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.614492
- Title: From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling
- Title(参考訳): 数理推論からコードへ:テスト時間スケーリングにおけるプロセスリワードモデルの一般化
- Authors: Zhengyu Chen, Yudong Wang, Teng Xiao, Ruochen Zhou, Xuesheng Yang, Wei Wang, Zhifang Sui, Jingang Wang,
- Abstract要約: プレトレーニングと報奨モデルトレーニング FLOP の相互作用について検討し,PRM の効率と精度への影響を評価する。
以上の結果から,数式データセットに基づいてトレーニングしたPRMは,コード生成に適した性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 32.72867198629561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in improving the reasoning capabilities of Large Language Models have underscored the efficacy of Process Reward Models (PRMs) in addressing intermediate errors through structured feedback mechanisms. This study analyzes PRMs from multiple perspectives, including training methodologies, scalability, and generalization capabilities. We investigate the interplay between pre-training and reward model training FLOPs to assess their influence on PRM efficiency and accuracy in complex reasoning tasks. Our analysis reveals a pattern of diminishing returns in performance with increasing PRM scale, highlighting the importance of balancing model size and computational cost. Furthermore, the diversity of training datasets significantly impacts PRM performance, emphasizing the importance of diverse data to enhance both accuracy and efficiency. We further examine test-time scaling strategies, identifying Monte Carlo Tree Search as the most effective method when computational resources are abundant, while Best-of-N Sampling serves as a practical alternative under resource-limited conditions. Notably, our findings indicate that PRMs trained on mathematical datasets exhibit performance comparable to those tailored for code generation, suggesting robust cross-domain generalization. Employing a gradient-based metric, we observe that PRMs exhibit a preference for selecting responses with similar underlying patterns, further informing their optimization.
- Abstract(参考訳): 大規模言語モデルの推論能力向上の最近の進歩は、構造化されたフィードバック機構を通じて中間エラーに対処するプロセス・リワード・モデル(PRM)の有効性を裏付けている。
本研究では、トレーニング方法論、スケーラビリティ、一般化機能など、複数の観点からPRMを分析した。
複雑な推論タスクにおけるPRM効率と精度への影響を評価するために,プレトレーニングと報奨モデルトレーニングFLOPの相互作用について検討した。
解析の結果,PRMスケールの増大に伴う性能低下のパターンが明らかとなり,モデルサイズと計算コストのバランスの重要性が明らかになった。
さらに、トレーニングデータセットの多様性は、PRMのパフォーマンスに大きく影響し、さまざまなデータの重要性を強調し、正確性と効率性の両方を高める。
さらに,モンテカルロ木探索を計算資源が豊富である場合に最も有効な方法とみなし,Best-of-N サンプリングは資源制限条件下での実用的な代替手段として機能する。
特に,数式データセットに基づいてトレーニングしたPRMは,コード生成に適した性能を示し,堅牢なクロスドメイン一般化を示唆している。
勾配に基づく計量を用いて、PRMは、類似したパターンで応答を選択することを好んで示し、さらに最適化を行う。
関連論文リスト
- Interpretable Credit Default Prediction with Ensemble Learning and SHAP [3.948008559977866]
本研究では、信用デフォルト予測の問題に焦点をあて、機械学習に基づくモデリングフレームワークを構築し、様々な主流分類アルゴリズムの比較実験を行う。
その結果、アンサンブル学習法は、特に特徴とデータ不均衡問題の間の複雑な非線形関係を扱う際に、予測性能に明らかな利点があることが示唆された。
外部クレジットスコア変数はモデル決定において主要な役割を担い、モデルの解釈可能性と実用的な応用価値を改善するのに役立ちます。
論文 参考訳(メタデータ) (2025-05-27T07:23:22Z) - Retrieval-Augmented Process Reward Model for Generalizable Mathematical Reasoning [32.850036320802474]
本稿では,OOD問題に対処するための新しいフレームワークであるRetrieval-Augmented Process Reward Model(RetrievalPRM)を紹介する。
RetrievalPRMは2段階の検索強化機構を利用して、セマンティックに類似した質問やステップをウォームアップとして検索する。
我々の実験では、RetrievalPRMは複数の実世界のデータセットで既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-02-20T08:40:09Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。