論文の概要: Learning From Mistakes Makes LLM Better Reasoner
- arxiv url: http://arxiv.org/abs/2310.20689v1
- Date: Tue, 31 Oct 2023 17:52:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 13:36:58.465530
- Title: Learning From Mistakes Makes LLM Better Reasoner
- Title(参考訳): 誤りから学ぶ: LLMが推論を改善
- Authors: Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou,
Weizhu Chen
- Abstract要約: 大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、人間の学習プロセスに似た、ミステイクからの学習(LeMa)を提案する。
GPT-4で生成した誤り補正データ対上のLeMa微細構造LSM
- 参考スコア(独自算出の注目度): 112.83395184036023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) recently exhibited remarkable reasoning
capabilities on solving math problems. To further improve this capability, this
work proposes Learning from Mistakes (LeMa), akin to human learning processes.
Consider a human student who failed to solve a math problem, he will learn from
what mistake he has made and how to correct it. Mimicking this error-driven
learning process, LeMa fine-tunes LLMs on mistake-correction data pairs
generated by GPT-4. Specifically, we first collect inaccurate reasoning paths
from various LLMs and then employ GPT-4 as a "corrector" to (1) identify the
mistake step, (2) explain the reason for the mistake, and (3) correct the
mistake and generate the final answer. Experimental results demonstrate the
effectiveness of LeMa: across five backbone LLMs and two mathematical reasoning
tasks, LeMa consistently improves the performance compared with fine-tuning on
CoT data alone. Impressively, LeMa can also benefit specialized LLMs such as
WizardMath and MetaMath, achieving 85.4% pass@1 accuracy on GSM8K and 27.1% on
MATH. This surpasses the SOTA performance achieved by non-execution open-source
models on these challenging tasks. Our code, data and models will be publicly
available at https://github.com/microsoft/CodeT.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この能力をさらに改善するために、人間の学習プロセスに似た、ミステイクからの学習(LeMa)を提案する。
数学の問題を解くのに失敗した人間の学生を考えると、彼はどんな間違いを犯し、どのように修正したかを学ぶだろう。
この誤り駆動学習過程を模倣し、GPT-4によって生成された誤り訂正データ対上のLeMa微細構造LPM。
具体的には,まずまず様々なLCMから不正確な推論経路を収集し,(1)ミスステップの特定,(2)ミスの原因の説明,(3)ミスの修正,そして最終回答の生成にGPT-4を"コレクタ"として利用する。
5つのバックボーンLLMと2つの数学的推論タスクにまたがって、LeMaはCoTデータのみの微調整に比べて一貫して性能を改善している。
印象的なことに、LeMaはWizardMathやMetaMathのような特殊なLLMの恩恵を受けることができ、GSM8Kでは85.4%のパス@1精度、MATHでは27.1%の精度を実現している。
これは、これらの困難なタスクにおいて非実行オープンソースのモデルによって達成されるSOTAのパフォーマンスを上回る。
私たちのコード、データ、モデルはhttps://github.com/microsoft/CodeT.comで公開されます。
関連論文リスト
- Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
本研究は,より小さい (= 13B) 言語モデル (LM) が,より強い LM から最小限の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Large Language Model Can Continue Evolving From Mistakes [36.14056870453356]
大きな言語モデル(LLM)は、様々な下流タスクで素晴らしいパフォーマンスを示す。
知識不足と欠陥のある事前学習データのために、特定のシナリオで誤った応答を発生させる可能性がある。
そこで我々は,ミスの学習スキルに触発されたCEM(Continuue Evolving from Mistakes)手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T17:44:56Z) - Evaluating LLMs at Detecting Errors in LLM Responses [30.645694514606507]
この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。
我々はReaLMistakeを用いて12の大規模言語モデルに基づいて誤り検出を行う。
論文 参考訳(メタデータ) (2024-04-04T17:19:47Z) - Can LLMs Learn from Previous Mistakes? Investigating LLMs' Errors to Boost for Reasoning [34.34977150518316]
textscCoTErrorSetは609,432の質問を持つ新しいベンチマークで、それぞれが正しい参照とエラー参照の両方で設計されている。
textbfSelf-rethinking guideing LLMsは、彼らが同じような間違いを犯したかどうかを再考するよう促している。
textbfMistakeチューニングは、正しい推論ドメインと間違った推論ドメインの両方でモデルを微調整する。
論文 参考訳(メタデータ) (2024-03-29T08:30:34Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - LLMs cannot find reasoning errors, but can correct them! [0.9674641730446749]
自己補正プロセスを2つのコアコンポーネントに分割する。
BIG-Bench MistakeはChain-of-Thought推論トレースにおける論理的誤りのデータセットである。
出力補正のためのバックトラック手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T20:12:38Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。