論文の概要: Limits of PRM-Guided Tree Search for Mathematical Reasoning with LLMs
- arxiv url: http://arxiv.org/abs/2510.20272v1
- Date: Thu, 23 Oct 2025 06:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.460768
- Title: Limits of PRM-Guided Tree Search for Mathematical Reasoning with LLMs
- Title(参考訳): LLMを用いた数学的推論のためのPRM誘導木探索の限界
- Authors: Tristan Cinquin, Geoff Pleiss, Agustinus Kristiadi,
- Abstract要約: 大規模言語モデル(LLM)の数学的推論において,BoN(Chain-of- Thought prompting)が人気となっている。
本稿では,プロセス報酬モデル(PRM)のスコアを抽出可能な動作空間上で最大化する適応アルゴリズムを提案する。
高いコストにもかかわらず, PRM誘導木探索はBoNに対して統計的に有意な改善を示さなかった。
- 参考スコア(独自算出の注目度): 15.673578825619442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While chain-of-thought prompting with Best-of-N (BoN) selection has become popular for mathematical reasoning in large language models (LLMs), its linear structure fails to capture the branching and exploratory nature of complex problem-solving. In this work, we propose an adaptive algorithm to maximize process reward model (PRM) scores over the intractable action space, and investigate whether PRM-guided tree search can improve mathematical reasoning by exploring multiple partial solution paths. Across $23$ diverse mathematical problems using Qwen2.5-Math-7B-Instruct with its associated PRM as a case study, we find that: (1) PRM-guided tree search shows no statistically significant improvements over BoN despite higher costs, (2) Monte Carlo tree search and beam search outperform other PRM-guided tree search methods, (3) PRMs poorly approximate state values and their reliability degrades with reasoning depth, and (4) PRMs generalize poorly out of distribution. This underperformance stems from tree search's greater reliance on unreliable PRM scores, suggesting different reward modeling is necessary before tree search can effectively enhance mathematical reasoning in LLMs.
- Abstract(参考訳): Best-of-N (BoN) の選択によるチェーン・オブ・シークレットは、大規模言語モデル (LLM) において数学的推論において人気となっているが、その線形構造は複雑な問題解決の分岐と探索的な性質を捉えていない。
本研究では,プロセス報酬モデル(PRM)スコアを抽出可能な動作空間上で最大化するための適応アルゴリズムを提案し,複数の部分解経路を探索することにより,PRM誘導木探索が数学的推論を改善することができるかどうかを検討する。
Qwen2.5-Math-7B-Instruct with its associated PRM as a case study, (1) PRM-guided tree search shows no statistically significant improvements than BoN while higher cost, (2) Monte Carlo tree search and beam search outperform other PRM-guided tree search method, (3) PRMs less almost state value and their reliability degrades with reasoning depth, (4) PRMs advantage out out out of distribution。
この過小評価は、木探索が信頼性の低いPRMスコアに大きく依存していることに起因しており、木探索がLLMの数学的推論を効果的に向上させる前には、異なる報酬モデリングが必要であることを示唆している。
関連論文リスト
- MITS: Enhanced Tree Search Reasoning for LLMs via Pointwise Mutual Information [32.43291637979958]
情報理論の原理で推論を導く新しいフレームワークであるMutual Information Tree Search (MITS)を提案する。
MITSは、ポイントワイド相互情報(PMI)に基づく効果的なスコアリング機能を導入し、推論経路の段階的評価と探索木拡張を可能にする。
最終的な予測のために、MITSはPMIスコアと予測コンセンサスを組み合わせた重み付き投票方式を採用している。
論文 参考訳(メタデータ) (2025-10-04T02:30:40Z) - Multi-Armed Bandits-Based Optimization of Decision Trees [0.0]
本稿では,マルチアーマッドバンド (MAB) に基づくプルーニング手法,強化学習 (RL) に基づく手法を提案する。
そこで我々はMABアルゴリズムを用いて各プルーニング動作からのフィードバックに基づいて最適な分岐ノードを見つける。
論文 参考訳(メタデータ) (2025-08-08T02:43:45Z) - A*-Thought: Efficient Reasoning via Bidirectional Compression for Low-Resource Settings [60.48717743667377]
A*-Thoughtは、最も本質的な思考を識別し、分離するために設計された効率的なツリー検索ベースの統合フレームワークである。
LRMの推論過程を探索木として定式化し、各ノードは巨大な推論空間における推論スパンを表す。
低予算でQwQ-32Bを2.39$times$で改善し、高予算で出力トークンの長さを50%近く削減できる。
論文 参考訳(メタデータ) (2025-05-30T12:58:34Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [33.547353090281284]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。
ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-06-06T07:40:00Z) - UNSAT Solver Synthesis via Monte Carlo Forest Search [10.754275929551593]
木MDPにおける学習ポリシーのための強化学習(RL)アルゴリズムであるモンテカルロ森林探索(MCFS)を紹介する。
そのような問題の例としては、SAT公式の不満足性の証明、SAT公式の解の数を数えることがある。
我々は,満足度(SAT)問題を解決するためにDPLL分岐ポリシーを学習するMCFSアルゴリズムであるKnuth Synthesisをダブした。
論文 参考訳(メタデータ) (2022-11-22T20:52:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。