Fugu-MT 論文翻訳(概要): S$^3$c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners

論文の概要: S$^3$c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners

arxiv url: http://arxiv.org/abs/2409.01524v1
Date: Tue, 3 Sep 2024 01:40:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 03:21:06.698233
Title: S$^3$c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners
Title（参考訳）: S$3$c-Math: 自発的なステップレベルの自己補正は、大きな言語モデルで数学的推論をより良くする
Authors: Yuchen Yan, Jin Jiang, Yang Liu, Yixin Cao, Xin Xu, Mengdi zhang, Xunliang Cai, Jian Shao,
Abstract要約: 自己補正は,大規模言語モデル(LLM)の潜在的な推論能力を刺激する手法である本稿では,S$3$c-Mathを提案する。
参考スコア（独自算出の注目度）: 23.713779973116733
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-correction is a novel method that can stimulate the potential reasoning abilities of large language models (LLMs). It involves detecting and correcting errors during the inference process when LLMs solve reasoning problems. However, recent works do not regard self-correction as a spontaneous and intrinsic capability of LLMs. Instead, such correction is achieved through post-hoc generation, external knowledge introduction, multi-model collaboration, and similar techniques. In this paper, we propose a series of mathematical LLMs called S$^3$c-Math, which are able to perform Spontaneous Step-level Self-correction for Mathematical reasoning. This capability helps LLMs to recognize whether their ongoing inference tends to contain errors and simultaneously correct these errors to produce a more reliable response. We proposed a method, which employs a step-level sampling approach to construct step-wise self-correction data for achieving such ability. Additionally, we implement a training strategy that uses above constructed data to equip LLMs with spontaneous step-level self-correction capacities. Our data and methods have been demonstrated to be effective across various foundation LLMs, consistently showing significant progress in evaluations on GSM8K, MATH, and other mathematical benchmarks. To the best of our knowledge, we are the first to introduce the spontaneous step-level self-correction ability of LLMs in mathematical reasoning.
Abstract（参考訳）: 自己補正(Self-correction)は、大規模言語モデル(LLM)の潜在的な推論能力を刺激する新しい手法である。 LLMが推論問題を解くとき、推論プロセス中にエラーを検出し修正する。しかし、近年の研究は自己補正をLPMの自然的・本質的な能力とはみなしていない。代わりに、そのような修正は、ポストホック生成、外部知識の導入、マルチモデルコラボレーションなどを通じて達成される。本稿では,S$^3$c-Math と呼ばれる数式 LLM を提案する。この機能は、LLMが進行中の推論がエラーを含む傾向があるかどうかを認識し、これらのエラーを同時に修正し、より信頼性の高い応答を生成するのに役立つ。そこで我々は,段階的なサンプリング手法を用いて,段階的な自己補正データを構築し,その能力を実現する手法を提案する。さらに, 上記構築データを用いて, 自発的ステップレベルの自己補正能力を有するLCMを装備する訓練戦略を実装した。 GSM8K, MATH, その他の数式ベンチマークにおける評価は, 様々な基礎 LLM において有効であることが実証されている。我々の知る限り、数学的推論において LLM の自然段階的自己補正能力を導入するのは初めてである。

関連論文リスト

Right Is Not Enough: The Pitfalls of Outcome Supervision in Training LLMs for Math Reasoning [35.142294794883455]
細粒度アノテーションを持つ新しいデータセットであるMathOlympiadEvalを導入し、LLMの回答の正しさとプロセスの正しさの間に大きなギャップがあることを明らかにした。 LLM-as-a-judgeのような既存の自動化手法は、これらの推論の欠陥を確実に検出するのに苦労する。そこで我々はParaStepVerifierを提案する。ParaStepVerifierは数学的解の厳密なステップバイステップ検証のための新しい手法である。
論文参考訳（メタデータ） (2025-06-07T17:54:56Z)
Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning [29.97121243044881]
ステップレベル自動算数補正のための拡張学習(RL)に基づく大規模言語モデル(LLM)の強化手法,StepAMCを提案する。特に,テキスト分類タスクにおける段階的な自動算数補正をRL問題に変換し,LLMの推論能力を向上させる。
論文参考訳（メタデータ） (2025-03-24T08:28:34Z)
LEMMA: Learning from Errors for MatheMatical Advancement in LLMs [33.571479131705075]
我々は,大規模言語モデルの推論能力を高めるために,数学的発展のための誤りからの学習(LEMMA)を導入する。 LEMMAは、誤ったステップの間違った解と、微調整のための正しい解への反射接続からなるデータを構成する。実験結果から, LEMMAは他の強力なベースラインよりも高い性能向上が得られた。
論文参考訳（メタデータ） (2025-03-21T17:59:10Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning [13.082135438792475]
自己補正の連鎖は大規模言語モデル(LLM)に固有の能力として自己補正を組み込む CoSCは、一連の自己補正段階を通して動作する。各段階において、LLMは、与えられた問題に対処するプログラムを生成し、プログラムベースのツールを使用してこのプログラムを実行し、出力を取得し、その後、その出力を検証する。第1段階では、LCMは、GPT-4から生成される比較的少量のシードデータで訓練され、初期CoSC能力が確立される。第2段階では、CoSC能力は、より大きな自己生成データを用いたトレーニングによりさらに強化される。
論文参考訳（メタデータ） (2024-10-14T17:16:44Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文参考訳（メタデータ） (2024-09-04T13:17:09Z)
Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文参考訳（メタデータ） (2024-07-25T17:35:59Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文参考訳（メタデータ） (2023-10-31T17:52:22Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。