論文の概要: Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2606.01682v1
- Date: Mon, 01 Jun 2026 04:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.371628
- Title: Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning
- Title(参考訳): プロセススコーラとしてのオフザシェルLDM:数理推論のためのPRMのトレーニングフリー代替品
- Authors: Atoosa Chegini, Soheil Feizi,
- Abstract要約: Chunk-Level Guided Generationは、既製の大規模言語モデルをプロセススコアラとして使用する、トレーニング不要の代替手段である。
本研究では,系統的な長さバイアスのため,大モデル確率の可変長推論ステップが信頼できないことを示す。
Chunk-Level Guided Generation は PRM guided search よりもかなり短い推論トレースを生成する。
- 参考スコア(独自算出の注目度): 51.88950852117154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting the best response from multiple small-model samples using a stronger scorer is a simple inference-time strategy, but fails when the small model has already committed to incorrect reasoning paths. PRM guided search avoids this by scoring candidate continuations during generation, but requires a reward model trained with step-level labels. We propose Chunk-Level Guided Generation, a training-free alternative that uses an off-the-shelf large language model as a process scorer. At each step, a small model samples k fixed-length candidate chunks, while the larger model scores the candidates using likelihoods without generating any text. The selected chunk is committed before the next step, steering generation before errors can propagate. We instantiate this framework with two selection rules: Likelihood-Guided Selection (LGS), which selects the chunk with the highest length-normalized large-model log-probability, and Contrastive-Guided Selection (CGS), which subtracts the small model's log-probability to favor chunks where the large model's preference diverges from the small model's. We show that scoring variable-length reasoning steps with large-model likelihoods is unreliable due to a systematic length bias that persists even after length normalization, and that fixed-length chunks avoid this confound. On GSM8K, MATH, Minerva Math, AMC23, and AIME24 with Qwen2.5-1.5B guided by Qwen2.5-32B and Llama-3.2-1B guided by Llama-3.1-70B, CGS outperforms majority voting by up to 28 pp and, under matched guidance budgets, matches or outperforms Qwen2.5-Math-PRM-72B guided search on most benchmarks without reward-model training. With Qwen2.5-7B guided by Qwen2.5-72B, CGS reaches 81.8% on MATH and 63.6% on Minerva Math at k=16, surpassing majority voting by 4--6 pp. Finally, Chunk-Level Guided Generation produces substantially shorter reasoning traces than PRM guided search.
- Abstract(参考訳): より強力なスコアラを使用して複数の小さなモデルサンプルから最良のレスポンスを選択することは、単純な推論時戦略であるが、小さなモデルがすでに誤った推論パスにコミットしている場合に失敗する。
PRMガイド検索は、生成中の候補継続をスコアリングすることでこれを回避しているが、ステップレベルのラベルでトレーニングされた報酬モデルが必要である。
プロセススコアラとして,既製の大規模言語モデルを用いたトレーニングフリーのChunk-Level Guided Generationを提案する。
各ステップで、小さなモデルは、固定長の候補チャンクをサンプリングし、大きなモデルは、テキストを生成せずに、可能性を使って候補をスコア付けする。
選択されたチャンクは次のステップの前にコミットされ、エラーが伝播する前に生成を操る。
このフレームワークには,最大長正規化大モデル対数確率のチャンクを選別するLikelihood-Guided Selection(LGS)と,小モデルの対数確率を減じて大モデルの選好が小モデルから分岐するチャンクを選別するContrastive-Guided Selection(CGS)という2つの選択ルールがある。
本研究では,大モデル確率による可変長推論ステップのスコアリングは,長さ正規化後も持続する体系的長さバイアスのため信頼性が低いことを示し,固定長チャンクは,この矛盾を回避する。
GSM8K, MATH, Minerva Math, AMC23, AIME24 では Qwen2.5-1.5B が Qwen2.5-32B 、 Llama-3.2-1B が Llama-3.1-70B が GSM8K, MATH, Minerva Math, AMC23, AIME24 が Llama-3.1-70B が Qwen2.5-1.5B に導いた。
Qwen2.5-7BがQwen2.5-72Bに導かれ、CGSはMATHで81.8%、ミネルバ数学で63.6%、k=16で過半数を4--6ppで上回った。
最後に、チャンクレベル誘導生成は、PRM誘導探索よりもかなり短い推論トレースを生成する。
関連論文リスト
- MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning [85.05204262206296]
大きな推論モデル(LRM)は、長い思考の連鎖を生成することによって、強い性能を達成するが、その推論コストは高い。
小型言語モデル(SLM)はより効率的であるが、多段階推論タスクでは困難である。
本研究では, LRM が SLM を選択的かつ簡潔にガイドする推論時協調手法である MentorCollab を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:58:16Z) - Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - Error Typing for Smarter Rewards: Improving Process Reward Models with Error-Aware Hierarchical Supervision [20.09181711927194]
PathFinder-PRMは,新しい階層型,誤り認識型識別型PRMである。
PRMBenchでは、PathFinder-PRMが67.7の最先端PRMSコアを新たに達成し、3倍の少ないデータを使用しながら、以前の最高値(65.5)を上回った。
論文 参考訳(メタデータ) (2025-05-26T08:56:36Z) - Value-Guided Search for Efficient Chain-of-Thought Reasoning [49.971608979012366]
本稿では,長文推論トレースを用いた値モデル学習の簡易かつ効率的な手法を提案する。
250万の推論トレースのデータセットを収集して、1.5Bトークンレベルのバリューモデルをトレーニングします。
最終多数決を重み付けしたブロックワイド値誘導検索(VGS)は,標準手法よりも優れたテスト時間スケーリングを実現する。
論文 参考訳(メタデータ) (2025-05-23T01:05:07Z) - S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models [2.9925837108958864]
テスト時間スケーリングは、大規模な言語モデルコミュニティに活発な研究対象として現れます。
最近の研究では、推論モデル(Qwen3でさえも過度の思考冗長性を示すことが示されている。
本稿では,新たな強化学習パラダイムであるS-GRPO(Serial-Group Decaying-Reward Policy Optimization)を紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:50:44Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。