論文の概要: Process Supervision for Chain-of-Thought Reasoning via Monte Carlo Net Information Gain
- arxiv url: http://arxiv.org/abs/2603.17815v1
- Date: Wed, 18 Mar 2026 15:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.773587
- Title: Process Supervision for Chain-of-Thought Reasoning via Monte Carlo Net Information Gain
- Title(参考訳): モンテカルロネット情報ゲインによるチェーン・オブ・ソート推論のプロセススーパービジョン
- Authors: Corentin Royer, Debarun Bhattacharjya, Gaetano Rossiello, Andrea Giovannini, Mennatallah El-Assady,
- Abstract要約: マルチステップ推論は、大規模言語モデル(LLM)の機能を改善するが、中間ステップで伝播するエラーのリスクを増大させる。
プロセス報酬モデル(PRM)は、各ステップを個別にスコアすることでこれを緩和し、きめ細かい監督と信頼性の向上を可能にします。
本稿では,情報理論を用いた段階ラベルの自動生成手法を提案する。
- 参考スコア(独自算出の注目度): 23.290482237410398
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-step reasoning improves the capabilities of large language models (LLMs) but increases the risk of errors propagating through intermediate steps. Process reward models (PRMs) mitigate this by scoring each step individually, enabling fine-grained supervision and improved reliability. Existing methods for training PRMs rely on costly human annotations or computationally intensive automatic labeling. We propose a novel approach to automatically generate step-level labels using Information Theory. Our method estimates how each reasoning step affects the likelihood of the correct answer, providing a signal of step quality. Importantly, it reduces computational complexity to $\mathcal{O}(N)$, improving over the previous $\mathcal{O}(N \log N)$ methods. We demonstrate that these labels enable effective chain-of-thought selection in best-of-$K$ evaluation settings across diverse reasoning benchmarks, including mathematics, Python programming, SQL, and scientific question answering. This work enables scalable and efficient supervision of LLM reasoning, particularly for tasks where error propagation is critical.
- Abstract(参考訳): マルチステップ推論は、大規模言語モデル(LLM)の機能を改善するが、中間ステップで伝播するエラーのリスクを増大させる。
プロセス報酬モデル(PRM)は、各ステップを個別にスコアすることでこれを緩和し、きめ細かい監督と信頼性の向上を可能にします。
PRMをトレーニングするための既存の方法は、高価な人間のアノテーションや計算集約的な自動ラベリングに依存している。
本稿では,情報理論を用いた段階ラベルの自動生成手法を提案する。
提案手法は,各推論ステップが正解の確率にどのように影響するかを推定し,ステップ品質の信号を与える。
重要なことに、計算複雑性を$\mathcal{O}(N)$に減らし、以前の$\mathcal{O}(N \log N)$メソッドよりも改善する。
これらのラベルは、数学、Pythonプログラミング、SQL、科学的な質問応答を含む様々な推論ベンチマークにおいて、ベスト・オブ・K$評価設定において効果的な連鎖選択を可能にすることを実証する。
この作業は、特にエラーの伝播が重要となるタスクに対して、LLM推論のスケーラブルで効率的な監視を可能にする。
関連論文リスト
- Adversarial Training for Process Reward Models [47.92183495904245]
そこでは、ジェネレータ(G$)が、PRM(R$)を欺くための推論エラーを生成することを学習する。
この相互作用は、R$に対して徐々に強みをもたらし、手動のステップレベルラベルを必要とせずに、その堅牢性を改善し、新しいエラーを一般化する。
論文 参考訳(メタデータ) (2025-11-28T05:32:01Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Rational Metareasoning for Large Language Models [17.479428400594028]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。
本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。
我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文 参考訳(メタデータ) (2024-10-07T23:48:52Z) - Improve Mathematical Reasoning in Language Models by Automated Process Supervision [23.807288360423193]
我々は,高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しい分割型モンテカルロ木探索アルゴリズムを提案する。
プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集できます。
重み付けされた自己整合性アルゴリズムとともに、この完全に自動化されたプロセスの監督は、LLMの数学推論性能を向上させることができる。
論文 参考訳(メタデータ) (2024-06-05T19:25:40Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。