論文の概要: More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty
- arxiv url: http://arxiv.org/abs/2503.22233v2
- Date: Mon, 01 Sep 2025 08:17:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.261233
- Title: More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty
- Title(参考訳): エントロピー駆動の不確実性を伴うプロセスリワードモデリング
- Authors: Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Wu Ning, Huacong Xu, Qian Chen, Yuxian Wang, Peishuo Su, Mofan Peng, Zijie Chen, Yitong Li,
- Abstract要約: 本稿では,プロセス報酬モデリングのための新しいエントロピー駆動トレーニングフレームワークであるEDU-PRMを紹介する。
複雑な推論ステップの動的で不確実性に整合したセグメンテーションを可能にする。
Qwen2.5-Math-PRM-72Bトレーニングデータの1.5%未満を使用して、最先端の88.4%の新たな精度を実現している。
- 参考スコア(独自算出の注目度): 12.259883626918658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Entropy Driven Uncertainty Process Reward Model (EDU-PRM), a novel entropy-driven training framework for process reward modeling that enables dynamic, uncertainty-aligned segmentation of complex reasoning steps, eliminating the need for costly manual step annotations. Unlike previous Process Reward Models (PRMs) that rely on static partitioning and human labeling, EDU-PRM automatically anchors step boundaries at tokens with high predictive entropy. On the MATH test set, EDU-PRM achieves 65.5% accuracy, surpassing strong public PRM baselines such as Math-Shepherd PRM (61.7%) and Omega PRM (62.4%) under the High Temperature (HT) Sample + BON setting. Furthermore, when replacing HT sampling with EDU sampling, EDU-PRM further improves both accuracy and efficiency: at N=64, accuracy increases from 64.7% (HT Sample + BON) to 67.3% (EDU Sample + BON), while the number of generated tokens is reduced by 47%, demonstrating a superior accuracy-cost balance. On the ProcessBench test set, EDU-PRM achieves a new state-of-the-art accuracy of 88.4% using less than 1.5% of the Qwen2.5-Math-PRM-72B training data, surpassing the previous best of 87.8%. In summary, EDU-PRM provides a scalable and annotation-efficient paradigm for process supervision in mathematical reasoning, opening new avenues for efficient complex reasoning on math.
- Abstract(参考訳): 本稿では,複雑な推論ステップの動的かつ不確実なセグメンテーションを可能にするプロセス報酬モデリングのための,新しいエントロピー駆動型トレーニングフレームワークであるEntropy-Driven Uncertainty Process Reward Model (EDU-PRM)を紹介する。
静的パーティショニングとヒューマンラベルに依存する従来のプロセスリワードモデル(PRM)とは異なり、EDU-PRMは高い予測エントロピーを持つトークンにステップ境界を自動的に固定する。
MATHテストセットでは、EDU-PRMは65.5%の精度を達成し、Math-Shepherd PRM (61.7%)やOmega PRM (62.4%)といった公共のPRMベースラインを高温(HT)サンプル+BON設定で上回っている。
さらに、HTサンプリングをEDUサンプリングに置き換えると、EDU-PRMはさらに精度と効率を向上し、N=64では64.7%(HTサンプル+BON)から67.3%(EDUサンプル+BON)まで精度が向上し、生成したトークンの数は47%減少し、精度とコストのバランスが向上した。
ProcessBenchテストセットでは、EDU-PRMはQwen2.5-Math-PRM-72Bトレーニングデータの1.5%以下を使用して、88.4%の新しい最先端の精度を達成した。
要約すると、EDU-PRMは、数学的推論におけるプロセスの監督のためのスケーラブルでアノテーション効率の良いパラダイムを提供し、数学における効率的な複雑な推論のための新しい道を開く。
関連論文リスト
- ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [56.32212611983997]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Reinforce LLM Reasoning through Multi-Agent Reflection [8.088795955922656]
DPSDPは,自己生成データを直接選好学習することで,アクタクリティカルなLLMシステムを反復的に洗練する強化学習アルゴリズムである。
理論的には、DPSDPはトレーニング分布内の任意のポリシーのパフォーマンスと一致させることができる。
例えば、ベンチマークMATH 500では、5つの改良ステップ以上の多数投票がミニストラーモデルで第1回投票の精度を58.2%から63.2%に向上させた。
論文 参考訳(メタデータ) (2025-06-10T02:43:47Z) - Entropy-Based Adaptive Weighting for Self-Training [15.089334734753677]
自己学習のためのエントロピーに基づく適応重み付け(EAST)を提案する。
EASTは、自己学習中に不確実なデータを優先順位付けするために設計された適応的な重み付け戦略である。
我々はGSM8KおよびMATHベンチマークに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-31T10:04:35Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Better Process Supervision with Bi-directional Rewarding Signals [41.929678717412266]
本稿では,過去の手順の正しさを評価するプロセス監視モデルであるBiRMを紹介し,今後の成功の可能性をモデル化する。
数学的推論のタスクについて広範な実験を行い、BiRMがLLM推論のステップをより正確に評価できることを実証した。
検索ベースの戦略では、より包括的なガイダンスを提供し、それぞれMATH-500でORMを5.0%、PRMを3.8%上回る。
論文 参考訳(メタデータ) (2025-03-06T17:03:17Z) - An Efficient and Precise Training Data Construction Framework for Process-supervised Reward Model in Mathematical Reasoning [11.691011429576243]
本稿では,EpicPRMというフレームワークを紹介し,その定量化貢献に基づいて各中間推論ステップに注釈を付ける。
我々は50kの注釈付き中間ステップからなるEpic50kという高品質なプロセス監視トレーニングデータセットを効率的に構築する。
論文 参考訳(メタデータ) (2025-03-04T08:18:46Z) - Process Reinforcement through Implicit Rewards [95.7442934212076]
複雑なプロセス報酬は、大きな言語モデル(LLM)の推論時間スケーリングにおいて、スパースな結果レベルの報酬よりも効果的な選択肢であることが証明されている。
ディエンス報酬は、その微粒な報酬が結果報酬の固有の問題に対処する可能性があるため、LLMの強化学習(RL)に魅力的な選択を与える。
これは主に、高品質なプロセスラベルの収集が違法に高価であるオンラインのトレーニングプロセス報酬モデル(PRM)の課題に起因する可能性がある。
提案するPRIMEは,ポリシロールアウトと結果ラベルのみを用いて,インプットプロセス報酬によるオンラインPRM更新を可能にする。
論文 参考訳(メタデータ) (2025-02-03T15:43:48Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Entropy-Regularized Process Reward Model [30.279394036823092]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。
KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。
MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-15T01:09:23Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Continuous Approximations for Improving Quantization Aware Training of LLMs [4.435218424434634]
実効的なモデル圧縮手法である量子化アウェアトレーニング(QAT)を提案し,量子化後の性能劣化を低減する。
本稿では, 伝統的にSTE (Straight-Through Estimator) とクランプ関数によって近似された, 丸み関数上のQAT過程に対する2つの連続近似を導入する。
両方の手法を適用することで、量子化モデルのWikiText-v2データセット上のパープレキシティ(PPL)は9.0815に達し、ベースラインで9.9621を上回った。
論文 参考訳(メタデータ) (2024-10-06T04:33:06Z) - Fast-ELECTRA for Efficient Pre-training [83.29484808667532]
ELECTRAは補助モデルに置き換えられたシーケンス内のトークンを検出して、言語モデルを事前訓練する。
本稿では,既存の言語モデルを補助モデルとして活用したFast-ELECTRAを提案する。
提案手法は,最先端のELECTRA型事前学習手法の性能に匹敵するが,補助モデルの連成学習による計算とメモリコストは著しく削減される。
論文 参考訳(メタデータ) (2023-10-11T09:55:46Z) - No MCMC for me: Amortized sampling for fast and stable training of
energy-based models [62.1234885852552]
エネルギーベースモデル(EBM)は、不確実性を表す柔軟で魅力的な方法である。
本稿では,エントロピー規則化ジェネレータを用いてEMMを大規模に訓練し,MCMCサンプリングを記憶する簡単な方法を提案する。
次に、最近提案されたジョイント・エナジー・モデル(JEM)に推定器を適用し、元の性能と高速で安定したトレーニングとを一致させる。
論文 参考訳(メタデータ) (2020-10-08T19:17:20Z) - How to Train Your Energy-Based Model for Regression [107.54411649704194]
近年,コンピュータビジョンにおいてエネルギーベースモデル (EBM) が普及している。
近年の作業では、回帰タスクにもESMを適用し、オブジェクト検出と視覚的トラッキングにおける最先端のパフォーマンスを実現している。
最高のレグレッションパフォーマンスのためにEBMをどのようにトレーニングするかは、十分に研究された問題ではありません。
論文 参考訳(メタデータ) (2020-05-04T17:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。