論文の概要: Outcome-supervised Verifiers for Planning in Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2311.09724v1
- Date: Thu, 16 Nov 2023 09:56:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:21:54.767195
- Title: Outcome-supervised Verifiers for Planning in Mathematical Reasoning
- Title(参考訳): 数学的推論における計画のための結果教師付き検証器
- Authors: Fei Yu, Anningzhe Gao, Benyou Wang
- Abstract要約: アウトカム・スーパービジョン・バリュー・モデル(OVM)は、テキスト・プランニングの効率的かつ直感的な方法として、成果管理をトレーニングに採用している。
GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
- 参考スコア(独自算出の注目度): 17.527674878272176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often struggle with maintaining accuracy across
a sequence of intermediate reasoning steps in mathematical reasoning, leading
to error propagation that undermines the final result. The current methodology
to mitigate this issue primarily involves using a verifier model to assess the
correctness of generated solution candidates, focusing either on the overall
reasoning path or on an incomplete reasoning path. By rethinking this approach,
we argue that assessing potentials of incomplete reasoning paths could be more
advantageous as it guides towards correct final answers, transforming the task
into a \textit{planning} problem. Our proposed verifier, the
Outcome-supervision Value Model (OVM), employs outcome supervision for
training, offering an efficient and intuitive method for \textit{planning} by
prioritizing steps that lead to accurate conclusions over mere per-step
correctness. Furthermore, the OVM eschews the need for labor-intensive
annotations on step-level correctness, enhancing its scalability. Our
experiments on two multi-step mathematical reasoning datasets, GSM8K and Game
of 24, demonstrate the superior performance of the OVM model. Notably, in
GSM8K, our \textbf{OVM-7B model achieves state-of-the-art results among LLMs up
to 13B parameters}; especially it does not utilize GPT-4 or code execution.
These findings offer a novel perspective on the role of outcome supervision in
training verifiers for multi-step reasoning tasks and provide theoretical
justification for its advantage in value estimation for planning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的推論における中間的推論ステップの列の精度を維持するのにしばしば苦労し、最終的な結果を損なうエラーの伝播につながる。
この問題を軽減するための現在の方法論は、主に検証モデルを使用して生成したソリューション候補の正当性を評価し、全体的な推論パスや不完全な推論パスに焦点を当てる。
このアプローチを再考することで、不完全な推論パスの可能性を評価することは、正しい最終的な答えを導き、タスクを \textit{planning}問題に変換することでより有利になる、と主張する。
提案する検証手法であるOutcome-supervision Value Model (OVM) は,単にステップ毎の正確さよりも正確な結論に至るステップの優先順位付けによって,‘textit{planning’ の効率的かつ直感的な手法を提供する。
さらに、OVMは、ステップレベルの正確性に対する労働集約的なアノテーションの必要性を回避し、スケーラビリティを向上します。
GSM8KとGame of 24の2つの多段階数学的推論データセットに関する実験により,OVMモデルの優れた性能を示す。
特に、GSM8Kでは、我々の \textbf{OVM-7B モデルは、最大 13B パラメータの LLM 間の最先端結果を達成するが、特に GPT-4 やコード実行は利用しない。
これらの知見は、多段階推論タスクのトレーニング検証における成果管理の役割に関する新たな視点を提供し、計画における価値推定の利点を理論的に正当化するものである。
関連論文リスト
- Learning Algorithms for Verification of Markov Decision Processes [20.5951492453299]
マルコフ決定過程(MDP)の検証に学習アルゴリズムとガイダンスを適用するためのフレームワークを提案する。
提案するフレームワークは,検証における中核的な問題である確率的到達性に注目し,二つの異なるシナリオでインスタンス化される。
論文 参考訳(メタデータ) (2024-03-14T08:54:19Z) - Multi-step Problem Solving Through a Verifier: An Empirical Analysis on
Model-induced Process Supervision [43.03988648915096]
データキュレーションを自動化する新しい手法であるMiPS(Model-induced Process Supervision)を導入する。
MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。
提案手法は,算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-02-05T00:57:51Z) - Learning Planning-based Reasoning by Trajectories Collection and Process
Reward Synthesizing [66.50096740792928]
収集された軌道上での直接選好最適化(DPO)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Estimating Fr\'echet bounds for validating programmatic weak supervision [50.13475056199486]
我々は、ある変数が連続的に評価される(おそらく高次元の)分布クラス上のFr'echeの境界を推定する手法を開発する。
プログラム弱監督(PWS)を訓練した機械学習(ML)モデルの性能を評価することで,アルゴリズムの有用性を実証する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Score Function Gradient Estimation to Widen the Applicability of
Decision-Focused Learning [17.494540497438955]
決定中心学習(DFL)は、タスク損失を直接最小化し、MLモデルをトレーニングすることを目的として、最近提案されたパラダイムである。
本研究では,パラメータ上でのテキスト分布の予測とスコア関数勾配推定(SFGE)を用いて,予測モデルに対する決定中心の更新を計算することにより,これらの制約に対処する。
実験の結果,(1)目的関数と制約の両方で発生する予測に対処し,(2)2段階最適化問題に効果的に取り組むことができることがわかった。
論文 参考訳(メタデータ) (2023-07-11T12:32:13Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。