論文の概要: Solving math word problems with process- and outcome-based feedback
- arxiv url: http://arxiv.org/abs/2211.14275v1
- Date: Fri, 25 Nov 2022 18:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:21:19.640931
- Title: Solving math word problems with process- and outcome-based feedback
- Title(参考訳): プロセスと結果に基づくフィードバックによる計算語問題の解法
- Authors: Jonathan Uesato, Nate Kushman, Ramana Kumar, Francis Song, Noah
Siegel, Lisa Wang, Antonia Creswell, Geoffrey Irving, Irina Higgins
- Abstract要約: 自然言語タスクで訓練されたプロセスベースのアプローチと結果ベースのアプローチを総合的に比較する。
純粋な結果に基づく監視は、ラベルの監督を減らして、同様の最終回答エラー率を生成する。
正しい推論のステップでは、学習した報酬モデルからプロセスベースの監視や監督を使う必要があります。
- 参考スコア(独自算出の注目度): 15.331173715345125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that asking language models to generate reasoning steps
improves performance on many reasoning tasks. When moving beyond prompting,
this raises the question of how we should supervise such models: outcome-based
approaches which supervise the final result, or process-based approaches which
supervise the reasoning process itself? Differences between these approaches
might naturally be expected not just in final-answer errors but also in
reasoning errors, which can be difficult to detect and are problematic in many
real-world domains such as education. We run the first comprehensive comparison
between process- and outcome-based approaches trained on a natural language
task, GSM8K. We find that pure outcome-based supervision produces similar
final-answer error rates with less label supervision. However, for correct
reasoning steps we find it necessary to use process-based supervision or
supervision from learned reward models that emulate process-based feedback. In
total, we improve the previous best results from 16.8% $\to$ 12.7% final-answer
error and 14.0% $\to$ 3.4% reasoning error among final-answer-correct
solutions.
- Abstract(参考訳): 最近の研究は、言語モデルに推論ステップの生成を求めることで、多くの推論タスクのパフォーマンスが向上していることを示している。
プロンプトを超えて進むと、これはどのようにモデルを監視するべきかという疑問を提起する:最終結果を監督する結果ベースのアプローチ、あるいは推論プロセス自体を監督するプロセスベースのアプローチ?
これらのアプローチの違いは、ファイナアンスエラーだけでなく、推論エラーにおいても当然期待できるが、これは検出が難しく、教育のような現実世界の多くのドメインで問題となる。
我々は、自然言語タスクであるGSM8Kで訓練されたプロセスベースと結果ベースのアプローチの包括的な比較を行う。
純粋な結果に基づく監視は、ラベルの監督を減らして、同様の最終回答エラー率を生成する。
しかし、正しい推論ステップのためには、プロセスベースのフィードバックをエミュレートした学習報酬モデルからプロセスベースの監視または監督を使用する必要がある。
16.8%の$\to$ 12.7%のファイナル・アンサー・エラー14.0%の$\to$ 3.4%の推論・エラーまで改善した。
関連論文リスト
- Do We Need to Verify Step by Step? Rethinking Process Supervision from a Theoretical Perspective [59.61868506896214]
標準的なデータカバレッジの仮定では、強化学習はプロセスの監督よりも統計的に難しいものではない。
任意のポリシーの利点関数が最適なプロセス報酬モデルとして機能することを証明する。
論文 参考訳(メタデータ) (2025-02-14T22:21:56Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文 参考訳(メタデータ) (2024-10-07T06:37:25Z) - Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning [54.585428241509234]
逆カリキュラム強化学習(RL)によるR$3の学習推論を提案する。
RLは、大規模言語モデルのプロセス監視の利点を達成するために、結果監視のみを採用する。
論文 参考訳(メタデータ) (2024-02-08T16:46:26Z) - OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning [15.59540726867483]
我々は、ガイド付き復号法では、ステップごとの正当性を保証するよりも、不完全推論経路の可能性を評価する方が有利であると主張している。
誘導復号化のための$textitoutcomeの監督が本質的に価値モデルとして機能するという発見に触発されて、アウトカム管理価値モデル(OVM)を提案する。
GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2023-11-16T09:56:28Z) - Let's Verify Step by Step [73.58107073356732]
プロセスの監督は,課題を解決するためのトレーニングモデルにおいて,結果の監督を著しく上回っていることを示す。
我々のモデルは、MATHテストセットの代表部分集合から78%の問題を解く。
また、最高の報酬モデルをトレーニングするために使われる80,000段階の人間フィードバックラベルの完全なデータセットであるPRM800Kをリリースしています。
論文 参考訳(メタデータ) (2023-05-31T17:24:00Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。