論文の概要: Solving math word problems with process- and outcome-based feedback
- arxiv url: http://arxiv.org/abs/2211.14275v1
- Date: Fri, 25 Nov 2022 18:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:21:19.640931
- Title: Solving math word problems with process- and outcome-based feedback
- Title(参考訳): プロセスと結果に基づくフィードバックによる計算語問題の解法
- Authors: Jonathan Uesato, Nate Kushman, Ramana Kumar, Francis Song, Noah
Siegel, Lisa Wang, Antonia Creswell, Geoffrey Irving, Irina Higgins
- Abstract要約: 自然言語タスクで訓練されたプロセスベースのアプローチと結果ベースのアプローチを総合的に比較する。
純粋な結果に基づく監視は、ラベルの監督を減らして、同様の最終回答エラー率を生成する。
正しい推論のステップでは、学習した報酬モデルからプロセスベースの監視や監督を使う必要があります。
- 参考スコア(独自算出の注目度): 15.331173715345125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that asking language models to generate reasoning steps
improves performance on many reasoning tasks. When moving beyond prompting,
this raises the question of how we should supervise such models: outcome-based
approaches which supervise the final result, or process-based approaches which
supervise the reasoning process itself? Differences between these approaches
might naturally be expected not just in final-answer errors but also in
reasoning errors, which can be difficult to detect and are problematic in many
real-world domains such as education. We run the first comprehensive comparison
between process- and outcome-based approaches trained on a natural language
task, GSM8K. We find that pure outcome-based supervision produces similar
final-answer error rates with less label supervision. However, for correct
reasoning steps we find it necessary to use process-based supervision or
supervision from learned reward models that emulate process-based feedback. In
total, we improve the previous best results from 16.8% $\to$ 12.7% final-answer
error and 14.0% $\to$ 3.4% reasoning error among final-answer-correct
solutions.
- Abstract(参考訳): 最近の研究は、言語モデルに推論ステップの生成を求めることで、多くの推論タスクのパフォーマンスが向上していることを示している。
プロンプトを超えて進むと、これはどのようにモデルを監視するべきかという疑問を提起する:最終結果を監督する結果ベースのアプローチ、あるいは推論プロセス自体を監督するプロセスベースのアプローチ?
これらのアプローチの違いは、ファイナアンスエラーだけでなく、推論エラーにおいても当然期待できるが、これは検出が難しく、教育のような現実世界の多くのドメインで問題となる。
我々は、自然言語タスクであるGSM8Kで訓練されたプロセスベースと結果ベースのアプローチの包括的な比較を行う。
純粋な結果に基づく監視は、ラベルの監督を減らして、同様の最終回答エラー率を生成する。
しかし、正しい推論ステップのためには、プロセスベースのフィードバックをエミュレートした学習報酬モデルからプロセスベースの監視または監督を使用する必要がある。
16.8%の$\to$ 12.7%のファイナル・アンサー・エラー14.0%の$\to$ 3.4%の推論・エラーまで改善した。
関連論文リスト
- Masked Thought: Simply Masking Partial Reasoning Steps Can Improve
Mathematical Reasoning Learning of Language Models [106.59263704052206]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に代えて,外部リソースを回避する手法を開発した。
私たちのトレーニングアプローチは、思考の連鎖内の特定のトークンをランダムに隠蔽します。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Training Large Language Models for Reasoning through Reverse Curriculum
Reinforcement Learning [55.33829508513934]
逆カリキュラム強化学習(RL)によるR$3の学習推論を提案する。
RLは、大規模言語モデルのプロセス監視の利点を達成するために、結果監視のみを採用する。
論文 参考訳(メタデータ) (2024-02-08T16:46:26Z) - Multi-step Problem Solving Through a Verifier: An Empirical Analysis on
Model-induced Process Supervision [43.03988648915096]
データキュレーションを自動化する新しい手法であるMiPS(Model-induced Process Supervision)を導入する。
MiPSは、推論モデルを通じてこの解の完了をサンプリングし、正しい完了の比率として定義される精度を得ることによって中間段階を注釈する。
提案手法は,算数および符号化タスクにおける PaLM 2 の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-02-05T00:57:51Z) - Outcome-supervised Verifiers for Planning in Mathematical Reasoning [17.527674878272176]
アウトカム・スーパービジョン・バリュー・モデル(OVM)は、テキスト・プランニングの効率的かつ直感的な方法として、成果管理をトレーニングに採用している。
GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2023-11-16T09:56:28Z) - Let's Verify Step by Step [73.58107073356732]
プロセスの監督は,課題を解決するためのトレーニングモデルにおいて,結果の監督を著しく上回っていることを示す。
我々のモデルは、MATHテストセットの代表部分集合から78%の問題を解く。
また、最高の報酬モデルをトレーニングするために使われる80,000段階の人間フィードバックラベルの完全なデータセットであるPRM800Kをリリースしています。
論文 参考訳(メタデータ) (2023-05-31T17:24:00Z) - Self-Polish: Enhance Reasoning in Large Language Models via Problem
Refinement [53.68527732113678]
本稿では,モデルの問題解決プロセスを容易にする新しい手法であるSelf-Polish(SP)を提案する。
SPは、無関係な情報を排除し、論理構造を再構成し、局所条件を新しいものに並列に整理するようにモデルに教える。
提案手法の有効性を明らかにするため,5つのベンチマークで徹底的な実験を行った。
論文 参考訳(メタデータ) (2023-05-23T19:58:30Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - Global Optimization of Objective Functions Represented by ReLU Networks [77.55969359556032]
ニューラルネットワークは複雑で非敵対的な関数を学ぶことができ、安全クリティカルな文脈でそれらの正しい振る舞いを保証することは困難である。
ネットワーク内の障害を見つけるための多くのアプローチ(例えば、敵の例)があるが、これらは障害の欠如を保証できない。
本稿では,最適化プロセスを検証手順に統合し,本手法よりも優れた性能を実現する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T08:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。