Fugu-MT 論文翻訳(概要): Enhancing Mathematical Reasoning in LLMs by Stepwise Correction

論文の概要: Enhancing Mathematical Reasoning in LLMs by Stepwise Correction

arxiv url: http://arxiv.org/abs/2410.12934v1
Date: Wed, 16 Oct 2024 18:18:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.569046
Title: Enhancing Mathematical Reasoning in LLMs by Stepwise Correction
Title（参考訳）: ステップワイズ補正によるLLMの数学的推論の強化
Authors: Zhenyu Wu, Qingkai Zeng, Zhihan Zhang, Zhaoxuan Tan, Chao Shen, Meng Jiang,
Abstract要約: Best-of-N復号法は、大規模言語モデル(LLM)に複数の解を生成するように指示し、それぞれがスコアリング関数を使用してスコアし、数学的な推論問題に対する最終解として最も高いスコアを選択する。本稿では,LLMが生成した推論経路の誤りステップを特定し,修正するのに役立つ,ステップワイズ補正(StepCo)という新しいプロンプト手法を提案する。バリデーション・then-reviseプロセスは、回答の正しさを向上するだけでなく、生成に必要なパスを減らしてトークン消費を減らす。
参考スコア（独自算出の注目度）: 39.67266805233599
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Best-of-N decoding methods instruct large language models (LLMs) to generate multiple solutions, score each using a scoring function, and select the highest scored as the final answer to mathematical reasoning problems. However, this repeated independent process often leads to the same mistakes, making the selected solution still incorrect. We propose a novel prompting method named Stepwise Correction (StepCo) that helps LLMs identify and revise incorrect steps in their generated reasoning paths. It iterates verification and revision phases that employ a process-supervised verifier. The verify-then-revise process not only improves answer correctness but also reduces token consumption with fewer paths needed to generate. With StepCo, a series of LLMs demonstrate exceptional performance. Notably, using GPT-4o as the backend LLM, StepCo achieves an average accuracy of 94.1 across eight datasets, significantly outperforming the state-of-the-art Best-of-N method by +2.4, while reducing token consumption by 77.8%.
Abstract（参考訳）: Best-of-N復号法は、大規模言語モデル(LLM)に複数の解を生成するように指示し、それぞれがスコアリング関数を使用してスコアし、数学的な推論問題に対する最終解として最も高いスコアを選択する。しかし、この反復的な独立したプロセスは、しばしば同じ間違いを引き起こし、選択された解決策がまだ正しくない。本稿では,LLMが生成した推論経路の誤りステップを特定し,修正するのに役立つ,ステップワイズ補正(StepCo)という新しいプロンプト手法を提案する。プロセス管理検証器を使用する検証と修正フェーズを繰り返す。バリデーション・then-reviseプロセスは、回答の正しさを向上するだけでなく、生成に必要なパスを減らしてトークン消費を減らす。 StepCoでは、一連のLLMが素晴らしいパフォーマンスを示している。特に、GPT-4oをバックエンドLLMとして使用すると、StepCoは8つのデータセットの平均94.1の精度を達成し、最先端のBest-of-Nメソッドを+2.4で大幅に上回り、トークン消費量を77.8%削減した。

関連論文リスト

Right Is Not Enough: The Pitfalls of Outcome Supervision in Training LLMs for Math Reasoning [35.142294794883455]
細粒度アノテーションを持つ新しいデータセットであるMathOlympiadEvalを導入し、LLMの回答の正しさとプロセスの正しさの間に大きなギャップがあることを明らかにした。 LLM-as-a-judgeのような既存の自動化手法は、これらの推論の欠陥を確実に検出するのに苦労する。そこで我々はParaStepVerifierを提案する。ParaStepVerifierは数学的解の厳密なステップバイステップ検証のための新しい手法である。
論文参考訳（メタデータ） (2025-06-07T17:54:56Z)
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning [83.03531832811386]
BoostStep はステップ整列 ICL の例を通して推論精度を向上させる方法である。チェーン・オブ・シークレット(CoT)とツリー検索アルゴリズムをシームレスに統合する。 AIMEにおけるDeepSeek-R1-671Bのパフォーマンスを2.2%改善し、MATHデータセットからの単純な例のみを活用する。
論文参考訳（メタデータ） (2025-01-06T18:59:13Z)
Planning-Driven Programming: A Large Language Model Programming Workflow [8.827173113748701]
大規模言語モデル(LLM)は自然言語処理タスクに強い性能を持つ。最近の研究は、コード生成精度を改善する複数のサンプリング手法や、コードを洗練するためのプログラム修復手法を提案する。初期コード生成とその後の改良の両方を改善するために,LLMプログラミングワークフロー(LPW)を提案する。
論文参考訳（メタデータ） (2024-11-21T08:31:06Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Program Slicing in the Era of Large Language Models [7.990456190723922]
プログラムスライシングはソフトウェア工学において重要なテクニックであり、開発者は関連するコードの部分を分離することができる。本研究では,大規模言語モデル(LLM)の静的スライシングおよび動的プログラムスライシングへの応用について検討する。
論文参考訳（メタデータ） (2024-09-19T00:07:56Z)
Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文参考訳（メタデータ） (2024-02-20T14:23:23Z)
V-STaR: Training Verifiers for Self-Taught Reasoners [71.53113558733227]
V-STaR はモデル生成解の正しさを判断する DPO を用いて検証器を訓練する。複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られる。
論文参考訳（メタデータ） (2024-02-09T15:02:56Z)
Cumulative Reasoning with Large Language Models [12.267474250936123]
Cumulative Reasoning (CR)は、大規模言語モデル(LLM)問題解決を強化する構造化フレームワークである。 CRはLLMを3つの異なる役割 - Proposer、Verifier(s)、Reporter - タスクを体系的に分解し、中間的推論ステップを生成し、検証し、ソリューションに構成する。
論文参考訳（メタデータ） (2023-08-08T16:18:20Z)
Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-06-04T17:02:59Z)
Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文参考訳（メタデータ） (2023-05-19T17:49:25Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。