論文の概要: From Static to Dynamic: Adaptive Monte Carlo Search for Mathematical Process Supervision
- arxiv url: http://arxiv.org/abs/2509.24351v1
- Date: Mon, 29 Sep 2025 06:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.796935
- Title: From Static to Dynamic: Adaptive Monte Carlo Search for Mathematical Process Supervision
- Title(参考訳): 静的から動的へ:数理過程スーパービジョンのための適応モンテカルロ探索
- Authors: Jie Ma, Shihao Qi, Rui Xing, Ziang Yin, Bifan Wei, Jun Liu, Tongliang Liu,
- Abstract要約: 既存手法は, 定予算サンプリング戦略に基づいて, 推論ステップの質を推定する。
本稿では,データ生成を静的から適応に変換するフレームワークであるAdaptive Monte Carlo Search (AMCS)を提案する。
AMCSは、より多くのサンプルを不確実な推論ステップに割り当てることによって、予測を適応的に洗練し、予測しやすくする。
- 参考スコア(独自算出の注目度): 49.59309446816251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of process data plays a key role in training a Process Reward Model (PRM), which can enhance the complex mathematical reasoning capability of large language models. Existing methods estimate the quality of reasoning steps based on a fixed-budget sampling strategy and navigate a vast search space to perform path expansion during the automated data generation process, resulting in their inefficiency and inflexibility. To address these issues, we propose Adaptive Monte Carlo Search (AMCS), a framework that transforms data generation from fixed, static to adaptive, dynamic search at the level of node value estimation and path expansion. On one hand, AMCS adaptively refines estimation by allocating more samples to uncertain reasoning steps while using fewer samples for those that are easier to estimate. On the other hand, it enhances the path expansion through a Monte Carlo algorithm with a temporally adaptive policy that begins with broad exploration and gradually shifts toward exploiting the most promising directions. With AMCS, we construct a large-scale dataset MathSearch-200K of about 200K process supervision examples for training PRMs. To verify the effectiveness of our method, we conduct extensive experiments on four mathematical reasoning benchmarks. Experimental results show that Qwen2.5-Math-7B-PRM-AMCS achieves up to 76.2% accuracy on MATH500 with GLM-4-9B, outperforming all baseline PRMs. Notably, a 7B model supervised by Qwen2.5-Math-7B-PRM-AMCS surpasses a 72B model with weaker supervision. Moreover, Qwen2.5-Math-7B-PRM-AMCS maintains consistent advantages on out-of-distribution problems, demonstrating strong generalization capability. Our code is available at https://github.com/reml-group/AMCS.
- Abstract(参考訳): プロセスデータの品質は、大規模言語モデルの複雑な数学的推論能力を高めるプロセス・リワード・モデル(PRM)のトレーニングにおいて重要な役割を果たす。
既存の手法では、固定予算サンプリング戦略に基づいて推論ステップの質を推定し、膨大な探索空間をナビゲートして、自動データ生成プロセス中に経路拡張を行い、その結果、その非効率性と柔軟性をもたらす。
これらの問題に対処するため、我々は、ノード値の推定と経路拡張のレベルにおいて、データ生成を固定された静的から適応的な動的探索に変換するフレームワークであるAdaptive Monte Carlo Search (AMCS)を提案する。
一方、AMCSは、多くのサンプルを不確実な推論ステップに割り当てることによって、予測を適応的に洗練し、見積もりが容易なサンプルを少なくする。
一方、モンテカルロアルゴリズムによる経路拡張は、時間適応的なポリシーによって拡張され、広い探索から始まり、徐々に最も有望な方向の活用へと移行する。
AMCSを用いて,約200KプロセスのPRMをトレーニングするための大規模データセットMathSearch-200Kを構築した。
提案手法の有効性を検証するため,4つの数学的推論ベンチマークについて広範な実験を行った。
実験の結果、Qwen2.5-Math-7B-PRM-AMCS は GLM-4-9B で MATH500 の76.2% の精度を達成し、全てのベースライン PRM を上回った。
特に、Qwen2.5-Math-7B-PRM-AMCSが監督する7Bモデルは、監督の弱い72Bモデルを上回る。
さらに、Qwen2.5-Math-7B-PRM-AMCSは分布外問題に対して一貫した優位性を維持し、強力な一般化能力を示している。
私たちのコードはhttps://github.com/reml-group/AMCS.comで利用可能です。
関連論文リスト
- ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning [35.429904556288996]
我々は、コード検証を伴う明示的なChain-of-Thought(CoT)推論を行う生成プロセス報酬モデルGenPRMを紹介する。
実験の結果,GenPRMはMATHデータセットから23Kのトレーニングデータしか得られず,従来のPRMよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-04-01T15:21:05Z) - An Efficient and Precise Training Data Construction Framework for Process-supervised Reward Model in Mathematical Reasoning [11.691011429576243]
本稿では,EpicPRMというフレームワークを紹介し,その定量化貢献に基づいて各中間推論ステップに注釈を付ける。
我々は50kの注釈付き中間ステップからなるEpic50kという高品質なプロセス監視トレーニングデータセットを効率的に構築する。
論文 参考訳(メタデータ) (2025-03-04T08:18:46Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。