論文の概要: Outcome-supervised Verifiers for Planning in Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2311.09724v1
- Date: Thu, 16 Nov 2023 09:56:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:21:54.767195
- Title: Outcome-supervised Verifiers for Planning in Mathematical Reasoning
- Title(参考訳): 数学的推論における計画のための結果教師付き検証器
- Authors: Fei Yu, Anningzhe Gao, Benyou Wang
- Abstract要約: アウトカム・スーパービジョン・バリュー・モデル(OVM)は、テキスト・プランニングの効率的かつ直感的な方法として、成果管理をトレーニングに採用している。
GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
- 参考スコア(独自算出の注目度): 17.527674878272176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often struggle with maintaining accuracy across
a sequence of intermediate reasoning steps in mathematical reasoning, leading
to error propagation that undermines the final result. The current methodology
to mitigate this issue primarily involves using a verifier model to assess the
correctness of generated solution candidates, focusing either on the overall
reasoning path or on an incomplete reasoning path. By rethinking this approach,
we argue that assessing potentials of incomplete reasoning paths could be more
advantageous as it guides towards correct final answers, transforming the task
into a \textit{planning} problem. Our proposed verifier, the
Outcome-supervision Value Model (OVM), employs outcome supervision for
training, offering an efficient and intuitive method for \textit{planning} by
prioritizing steps that lead to accurate conclusions over mere per-step
correctness. Furthermore, the OVM eschews the need for labor-intensive
annotations on step-level correctness, enhancing its scalability. Our
experiments on two multi-step mathematical reasoning datasets, GSM8K and Game
of 24, demonstrate the superior performance of the OVM model. Notably, in
GSM8K, our \textbf{OVM-7B model achieves state-of-the-art results among LLMs up
to 13B parameters}; especially it does not utilize GPT-4 or code execution.
These findings offer a novel perspective on the role of outcome supervision in
training verifiers for multi-step reasoning tasks and provide theoretical
justification for its advantage in value estimation for planning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的推論における中間的推論ステップの列の精度を維持するのにしばしば苦労し、最終的な結果を損なうエラーの伝播につながる。
この問題を軽減するための現在の方法論は、主に検証モデルを使用して生成したソリューション候補の正当性を評価し、全体的な推論パスや不完全な推論パスに焦点を当てる。
このアプローチを再考することで、不完全な推論パスの可能性を評価することは、正しい最終的な答えを導き、タスクを \textit{planning}問題に変換することでより有利になる、と主張する。
提案する検証手法であるOutcome-supervision Value Model (OVM) は,単にステップ毎の正確さよりも正確な結論に至るステップの優先順位付けによって,‘textit{planning’ の効率的かつ直感的な手法を提供する。
さらに、OVMは、ステップレベルの正確性に対する労働集約的なアノテーションの必要性を回避し、スケーラビリティを向上します。
GSM8KとGame of 24の2つの多段階数学的推論データセットに関する実験により,OVMモデルの優れた性能を示す。
特に、GSM8Kでは、我々の \textbf{OVM-7B モデルは、最大 13B パラメータの LLM 間の最先端結果を達成するが、特に GPT-4 やコード実行は利用しない。
これらの知見は、多段階推論タスクのトレーニング検証における成果管理の役割に関する新たな視点を提供し、計画における価値推定の利点を理論的に正当化するものである。
関連論文リスト
- Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。
本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。
我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文 参考訳(メタデータ) (2024-10-07T23:48:52Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Improve Mathematical Reasoning in Language Models by Automated Process Supervision [22.72856086318912]
高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しいモンテカルロ木探索アルゴリズムを提案する。
プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集することができます。
我々は,Gemini Proモデルの数学推論性能を改良し,MATHベンチマークで69.4%の成功率を達成した。
論文 参考訳(メタデータ) (2024-06-05T19:25:40Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning [54.585428241509234]
逆カリキュラム強化学習(RL)によるR$3の学習推論を提案する。
RLは、大規模言語モデルのプロセス監視の利点を達成するために、結果監視のみを採用する。
論文 参考訳(メタデータ) (2024-02-08T16:46:26Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。