Fugu-MT 論文翻訳(概要): Solving math word problems with process- and outcome-based feedback

論文の概要: Solving math word problems with process- and outcome-based feedback

arxiv url: http://arxiv.org/abs/2211.14275v1
Date: Fri, 25 Nov 2022 18:19:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 14:21:19.640931
Title: Solving math word problems with process- and outcome-based feedback
Title（参考訳）: プロセスと結果に基づくフィードバックによる計算語問題の解法
Authors: Jonathan Uesato, Nate Kushman, Ramana Kumar, Francis Song, Noah Siegel, Lisa Wang, Antonia Creswell, Geoffrey Irving, Irina Higgins
Abstract要約: 自然言語タスクで訓練されたプロセスベースのアプローチと結果ベースのアプローチを総合的に比較する。純粋な結果に基づく監視は、ラベルの監督を減らして、同様の最終回答エラー率を生成する。正しい推論のステップでは、学習した報酬モデルからプロセスベースの監視や監督を使う必要があります。
参考スコア（独自算出の注目度）: 15.331173715345125
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work has shown that asking language models to generate reasoning steps improves performance on many reasoning tasks. When moving beyond prompting, this raises the question of how we should supervise such models: outcome-based approaches which supervise the final result, or process-based approaches which supervise the reasoning process itself? Differences between these approaches might naturally be expected not just in final-answer errors but also in reasoning errors, which can be difficult to detect and are problematic in many real-world domains such as education. We run the first comprehensive comparison between process- and outcome-based approaches trained on a natural language task, GSM8K. We find that pure outcome-based supervision produces similar final-answer error rates with less label supervision. However, for correct reasoning steps we find it necessary to use process-based supervision or supervision from learned reward models that emulate process-based feedback. In total, we improve the previous best results from 16.8% $\to$ 12.7% final-answer error and 14.0% $\to$ 3.4% reasoning error among final-answer-correct solutions.
Abstract（参考訳）: 最近の研究は、言語モデルに推論ステップの生成を求めることで、多くの推論タスクのパフォーマンスが向上していることを示している。プロンプトを超えて進むと、これはどのようにモデルを監視するべきかという疑問を提起する:最終結果を監督する結果ベースのアプローチ、あるいは推論プロセス自体を監督するプロセスベースのアプローチ? これらのアプローチの違いは、ファイナアンスエラーだけでなく、推論エラーにおいても当然期待できるが、これは検出が難しく、教育のような現実世界の多くのドメインで問題となる。我々は、自然言語タスクであるGSM8Kで訓練されたプロセスベースと結果ベースのアプローチの包括的な比較を行う。純粋な結果に基づく監視は、ラベルの監督を減らして、同様の最終回答エラー率を生成する。しかし、正しい推論ステップのためには、プロセスベースのフィードバックをエミュレートした学習報酬モデルからプロセスベースの監視または監督を使用する必要がある。 16.8%の$\to$ 12.7%のファイナル・アンサー・エラー14.0%の$\to$ 3.4%の推論・エラーまで改善した。

関連論文リスト

Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens [14.78605805191225]
中間トークンのセマンティクスが「思考」や「推論トレース」として人間化され、実際にモデル性能にどのように影響するかを考察する。解のみのベースラインが大幅に改善されているにもかかわらず、完全に正しいトレースで訓練されたモデルは、正しい解に到達すると、いまだに不正な推論トレースを生成する。
論文参考訳（メタデータ） (2025-05-19T23:29:23Z)
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think [51.0691253204425]
我々は2つの質問に答えるために中間的推論ステップを解析する: 最終的な答えはモデルの最適結論を確実に表すか? 我々のアプローチは、推論トレースを言語的手がかりに基づくシーケンシャルなサブソートに分割することである。これらの解答を最も頻繁な解(モード)を選択して集約すると、元の完全トレースから得られる解のみに依存するよりも、はるかに高い精度が得られることが判明した。
論文参考訳（メタデータ） (2025-04-29T12:39:07Z)
FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文参考訳（メタデータ） (2025-02-27T16:23:25Z)
Do We Need to Verify Step by Step? Rethinking Process Supervision from a Theoretical Perspective [59.61868506896214]
標準的なデータカバレッジの仮定では、強化学習はプロセスの監督よりも統計的に難しいものではない。任意のポリシーの利点関数が最適なプロセス報酬モデルとして機能することを証明する。
論文参考訳（メタデータ） (2025-02-14T22:21:56Z)
Verbosity-Aware Rationale Reduction: Effective Reduction of Redundant Rationale via Principled Criteria [18.612187958340407]
大規模言語モデル(LLM)は、最終回答の品質を高めるために、広範囲な中間推論単位(トークン、文など)を生成することに依存する。トークンレベルの削減を明確な基準なしで適用する従来の手法は、完全に合理的に訓練されたモデルと比較して、性能が劣る。本稿では,冗長な推論文を識別・除去するために,確率に基づく基準,冗長性を活用した文レベルの合理的化フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-30T15:15:08Z)
ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。 ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文参考訳（メタデータ） (2024-12-09T15:11:40Z)
Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文参考訳（メタデータ） (2024-10-07T06:37:25Z)
Improve Mathematical Reasoning in Language Models by Automated Process Supervision [22.72856086318912]
高品質プロセス監視データの効率的な収集のために,textitOmegaPRM という新しいモンテカルロ木探索アルゴリズムを提案する。プロセスリワードモデル(PRM)をトレーニングするために、150万以上のプロセス監視アノテーションを収集することができます。我々は,Gemini Proモデルの数学推論性能を改良し,MATHベンチマークで69.4%の成功率を達成した。
論文参考訳（メタデータ） (2024-06-05T19:25:40Z)
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。 CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文参考訳（メタデータ） (2024-04-23T12:16:05Z)
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning [54.585428241509234]
逆カリキュラム強化学習(RL)によるR$3の学習推論を提案する。 RLは、大規模言語モデルのプロセス監視の利点を達成するために、結果監視のみを採用する。
論文参考訳（メタデータ） (2024-02-08T16:46:26Z)
OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning [15.59540726867483]
我々は、ガイド付き復号法では、ステップごとの正当性を保証するよりも、不完全推論経路の可能性を評価する方が有利であると主張している。誘導復号化のための$textitoutcomeの監督が本質的に価値モデルとして機能するという発見に触発されて、アウトカム管理価値モデル(OVM)を提案する。 GSM8KとGame of 24の2つの多段階数学的推論データセットに対する実験により,OVMモデルの優れた性能が示された。
論文参考訳（メタデータ） (2023-11-16T09:56:28Z)
Let's Verify Step by Step [73.58107073356732]
プロセスの監督は,課題を解決するためのトレーニングモデルにおいて,結果の監督を著しく上回っていることを示す。我々のモデルは、MATHテストセットの代表部分集合から78%の問題を解く。また、最高の報酬モデルをトレーニングするために使われる80,000段階の人間フィードバックラベルの完全なデータセットであるPRM800Kをリリースしています。
論文参考訳（メタデータ） (2023-05-31T17:24:00Z)
Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文参考訳（メタデータ） (2022-06-06T03:38:36Z)
Global Optimization of Objective Functions Represented by ReLU Networks [77.55969359556032]
ニューラルネットワークは複雑で非敵対的な関数を学ぶことができ、安全クリティカルな文脈でそれらの正しい振る舞いを保証することは困難である。ネットワーク内の障害を見つけるための多くのアプローチ(例えば、敵の例)があるが、これらは障害の欠如を保証できない。本稿では,最適化プロセスを検証手順に統合し,本手法よりも優れた性能を実現する手法を提案する。
論文参考訳（メタデータ） (2020-10-07T08:19:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。