論文の概要: S$^3$c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners
- arxiv url: http://arxiv.org/abs/2409.01524v1
- Date: Tue, 3 Sep 2024 01:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 03:21:06.698233
- Title: S$^3$c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners
- Title(参考訳): S$3$c-Math: 自発的なステップレベルの自己補正は、大きな言語モデルで数学的推論をより良くする
- Authors: Yuchen Yan, Jin Jiang, Yang Liu, Yixin Cao, Xin Xu, Mengdi zhang, Xunliang Cai, Jian Shao,
- Abstract要約: 自己補正は,大規模言語モデル(LLM)の潜在的な推論能力を刺激する手法である
本稿では,S$3$c-Mathを提案する。
- 参考スコア(独自算出の注目度): 23.713779973116733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-correction is a novel method that can stimulate the potential reasoning abilities of large language models (LLMs). It involves detecting and correcting errors during the inference process when LLMs solve reasoning problems. However, recent works do not regard self-correction as a spontaneous and intrinsic capability of LLMs. Instead, such correction is achieved through post-hoc generation, external knowledge introduction, multi-model collaboration, and similar techniques. In this paper, we propose a series of mathematical LLMs called S$^3$c-Math, which are able to perform Spontaneous Step-level Self-correction for Mathematical reasoning. This capability helps LLMs to recognize whether their ongoing inference tends to contain errors and simultaneously correct these errors to produce a more reliable response. We proposed a method, which employs a step-level sampling approach to construct step-wise self-correction data for achieving such ability. Additionally, we implement a training strategy that uses above constructed data to equip LLMs with spontaneous step-level self-correction capacities. Our data and methods have been demonstrated to be effective across various foundation LLMs, consistently showing significant progress in evaluations on GSM8K, MATH, and other mathematical benchmarks. To the best of our knowledge, we are the first to introduce the spontaneous step-level self-correction ability of LLMs in mathematical reasoning.
- Abstract(参考訳): 自己補正(Self-correction)は、大規模言語モデル(LLM)の潜在的な推論能力を刺激する新しい手法である。
LLMが推論問題を解くとき、推論プロセス中にエラーを検出し修正する。
しかし、近年の研究は自己補正をLPMの自然的・本質的な能力とはみなしていない。
代わりに、そのような修正は、ポストホック生成、外部知識の導入、マルチモデルコラボレーションなどを通じて達成される。
本稿では,S$^3$c-Math と呼ばれる数式 LLM を提案する。
この機能は、LLMが進行中の推論がエラーを含む傾向があるかどうかを認識し、これらのエラーを同時に修正し、より信頼性の高い応答を生成するのに役立つ。
そこで我々は,段階的なサンプリング手法を用いて,段階的な自己補正データを構築し,その能力を実現する手法を提案する。
さらに, 上記構築データを用いて, 自発的ステップレベルの自己補正能力を有するLCMを装備する訓練戦略を実装した。
GSM8K, MATH, その他の数式ベンチマークにおける評価は, 様々な基礎 LLM において有効であることが実証されている。
我々の知る限り、数学的推論において LLM の自然段階的自己補正能力を導入するのは初めてである。
関連論文リスト
- Embedding Self-Correction as an Inherent Ability in Large Language Models for Enhanced Mathematical Reasoning [13.082135438792475]
自己補正の連鎖は大規模言語モデル(LLM)に固有の能力として自己補正を組み込む
CoSCは、一連の自己補正段階を通して動作する。各段階において、LLMは、与えられた問題に対処するプログラムを生成し、プログラムベースのツールを使用してこのプログラムを実行し、出力を取得し、その後、その出力を検証する。
第1段階では、LCMは、GPT-4から生成される比較的少量のシードデータで訓練され、初期CoSC能力が確立される。
第2段階では、CoSC能力は、より大きな自己生成データを用いたトレーニングによりさらに強化される。
論文 参考訳(メタデータ) (2024-10-14T17:16:44Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Deconfounded Causality-aware Parameter-Efficient Fine-Tuning for Problem-Solving Improvement of LLMs [12.48241058167222]
大規模言語モデル(LLM)は、人間の指示に基づいて様々なタスクに取り組む際に、顕著な効率性を示した。
しかし、数学や物理学の限界など、推論を必要とするタスクに苦しむことが研究によって明らかになっている。
このことは、LLMが組み込み知識を本当に理解しているか、それとも、コンテンツに対する真の理解なしにトークン分布を複製することを学ぶだけなのかという疑問を提起する。
モデルの推論能力を高めるために,新しいパラメータ効率細調整法であるDecon Causal Adaptation (DCA)を提案する。
論文 参考訳(メタデータ) (2024-09-04T13:17:09Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。