Fugu-MT 論文翻訳(概要): Outcome-supervised Verifiers for Planning in Mathematical Reasoning

論文の概要: Outcome-supervised Verifiers for Planning in Mathematical Reasoning

arxiv url: http://arxiv.org/abs/2311.09724v1
Date: Thu, 16 Nov 2023 09:56:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 15:21:54.767195
Title: Outcome-supervised Verifiers for Planning in Mathematical Reasoning
Title（参考訳）: 数学的推論における計画のための結果教師付き検証器
Authors: Fei Yu, Anningzhe Gao, Benyou Wang
Abstract要約: アウトカム・スーパービジョン・バリュー・モデル(OVM)は、テキスト・プランニングの効率的かつ直感的な方法として、成果管理をトレーニングに採用している。 GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
参考スコア（独自算出の注目度）: 17.527674878272176
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) often struggle with maintaining accuracy across a sequence of intermediate reasoning steps in mathematical reasoning, leading to error propagation that undermines the final result. The current methodology to mitigate this issue primarily involves using a verifier model to assess the correctness of generated solution candidates, focusing either on the overall reasoning path or on an incomplete reasoning path. By rethinking this approach, we argue that assessing potentials of incomplete reasoning paths could be more advantageous as it guides towards correct final answers, transforming the task into a \textit{planning} problem. Our proposed verifier, the Outcome-supervision Value Model (OVM), employs outcome supervision for training, offering an efficient and intuitive method for \textit{planning} by prioritizing steps that lead to accurate conclusions over mere per-step correctness. Furthermore, the OVM eschews the need for labor-intensive annotations on step-level correctness, enhancing its scalability. Our experiments on two multi-step mathematical reasoning datasets, GSM8K and Game of 24, demonstrate the superior performance of the OVM model. Notably, in GSM8K, our \textbf{OVM-7B model achieves state-of-the-art results among LLMs up to 13B parameters}; especially it does not utilize GPT-4 or code execution. These findings offer a novel perspective on the role of outcome supervision in training verifiers for multi-step reasoning tasks and provide theoretical justification for its advantage in value estimation for planning.
Abstract（参考訳）: 大規模言語モデル(LLM)は、数学的推論における中間的推論ステップの列の精度を維持するのにしばしば苦労し、最終的な結果を損なうエラーの伝播につながる。この問題を軽減するための現在の方法論は、主に検証モデルを使用して生成したソリューション候補の正当性を評価し、全体的な推論パスや不完全な推論パスに焦点を当てる。このアプローチを再考することで、不完全な推論パスの可能性を評価することは、正しい最終的な答えを導き、タスクを \textit{planning}問題に変換することでより有利になる、と主張する。提案する検証手法であるOutcome-supervision Value Model (OVM) は,単にステップ毎の正確さよりも正確な結論に至るステップの優先順位付けによって,‘textit{planning’ の効率的かつ直感的な手法を提供する。さらに、OVMは、ステップレベルの正確性に対する労働集約的なアノテーションの必要性を回避し、スケーラビリティを向上します。 GSM8KとGame of 24の2つの多段階数学的推論データセットに関する実験により,OVMモデルの優れた性能を示す。特に、GSM8Kでは、我々の \textbf{OVM-7B モデルは、最大 13B パラメータの LLM 間の最先端結果を達成するが、特に GPT-4 やコード実行は利用しない。これらの知見は、多段階推論タスクのトレーニング検証における成果管理の役割に関する新たな視点を提供し、計画における価値推定の利点を理論的に正当化するものである。

関連論文リスト

GM-PRM: A Generative Multimodal Process Reward Model for Multimodal Mathematical Reasoning [12.724393910603299]
GM-PRM(Generative Multimodal Process Reward Model)を紹介する。単純なスカラースコアの代わりに、GM-PRMは各推論ステップのきめ細かい解釈可能な分析を提供する。 GM-PRMは複数のマルチモーダル数学ベンチマークにおいて最先端の計算結果が得られることを示す。
論文参考訳（メタデータ） (2025-08-06T05:10:29Z)
Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
Direct Value Optimization: Improving Chain-of-Thought Reasoning in LLMs with Refined Values [31.415598465903884]
直接価値最適化(DVO)は、複雑な推論タスクにおいて大きな言語モデルを拡張するための革新的な強化学習フレームワークである。 DVOは個々の推論ステップで値信号を利用し、平均2乗誤差損失によってモデルを最適化する。数学的および常識的推論タスクに関する実証分析により、DVOは既存のオフライン優先最適化手法よりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-02-19T13:51:05Z)
Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文参考訳（メタデータ） (2024-10-21T17:00:06Z)
Rational Metareasoning for Large Language Models [5.5539136805232205]
大きな言語モデル(LLM)を使用するためのコアテクニックとして,推論への関与を促す声が上がっている。本研究は,認知科学で用いられるメタレゾニングの計算モデルに基づく新しいアプローチを導入する。我々は不必要な推論を罰することで計算の価値を組み込む報酬関数を開発する。
論文参考訳（メタデータ） (2024-10-07T23:48:52Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Improve Mathematical Reasoning in Language Models by Automated Process Supervision [22.72856086318912]
高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しいモンテカルロ木探索アルゴリズムを提案する。プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集することができます。我々は,Gemini Proモデルの数学推論性能を改良し,MATHベンチマークで69.4%の成功率を達成した。
論文参考訳（メタデータ） (2024-06-05T19:25:40Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning [54.585428241509234]
逆カリキュラム強化学習(RL)によるR$3の学習推論を提案する。 RLは、大規模言語モデルのプロセス監視の利点を達成するために、結果監視のみを採用する。
論文参考訳（メタデータ） (2024-02-08T16:46:26Z)
Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。 LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文参考訳（メタデータ） (2023-08-31T14:31:48Z)
Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。 VaGraMは価値認識モデル学習の新しい手法である。
論文参考訳（メタデータ） (2022-04-04T13:28:31Z)
An Information Bottleneck Approach for Controlling Conciseness in Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文参考訳（メタデータ） (2020-05-01T23:26:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。