論文の概要: Learning From Mistakes Makes LLM Better Reasoner
- arxiv url: http://arxiv.org/abs/2310.20689v4
- Date: Fri, 29 Mar 2024 07:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 20:26:59.930577
- Title: Learning From Mistakes Makes LLM Better Reasoner
- Title(参考訳): LLMがリゾネーターを改良, 失敗から学ぶ
- Authors: Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, Weizhu Chen,
- Abstract要約: 大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
- 参考スコア(独自算出の注目度): 106.48571828587728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve their reasoning capabilities, this work explores whether LLMs can LEarn from MistAkes (LEMA), akin to the human learning process. Consider a human student who failed to solve a math problem, he will learn from what mistake he has made and how to correct it. Mimicking this error-driven learning process, LEMA incorporates mistake-correction data pairs during fine-tuning LLMs. Specifically, we first collect inaccurate reasoning paths from various LLMs, and then employ GPT-4 as a ''corrector'' to identify the mistake step, explain the reason for the mistake, correct the mistake and generate the final answer. In addition, we apply a correction-centric evolution strategy that effectively expands the question set for generating correction data. Experiments across various LLMs and reasoning tasks show that LEMA effectively improves CoT-alone fine-tuning. Our further ablations shed light on the non-homogeneous effectiveness between CoT data and correction data. These results suggest a significant potential for LLMs to improve through learning from their mistakes. Our code, models and prompts are publicly available at https://github.com/microsoft/LEMA.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
彼らの推論能力をさらに向上するために、この研究は、LLMが人間の学習プロセスに似たミストエイクス(LEMA)から学習できるかどうかを探求する。
数学の問題を解くのに失敗した人間の学生を考えてみれば、彼が犯した間違いとそれをどのように修正するかから学ぶだろう。
LEMAはこの誤り駆動学習プロセスを模倣し、微調整LDM中に誤り訂正データペアを組み込む。
具体的には、まずまず様々なLCMから不正確な推論経路を収集し、次にGPT-4を'corrector'として使用して、ミスステップを特定し、その原因を説明し、誤りを訂正し、最終的な答えを生成する。
さらに,修正データを生成するための質問セットを効果的に拡張する修正中心の進化戦略を適用した。
様々なLCM実験と推論タスクにより、LEMAはCoT-aloneファインチューニングを効果的に改善することが示された。
さらなる改善は、CoTデータと修正データとの間の不均一な有効性に光を当てた。
これらの結果から,LLMが誤りから学習することで改善する可能性が示唆された。
私たちのコード、モデル、プロンプトはhttps://github.com/microsoft/LEMA.comで公開されています。
関連論文リスト
- Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - S$^3$c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners [23.713779973116733]
自己補正は,大規模言語モデル(LLM)の潜在的な推論能力を刺激する手法である
本稿では,S$3$c-Mathを提案する。
論文 参考訳(メタデータ) (2024-09-03T01:40:21Z) - DOP: Diagnostic-Oriented Prompting for Large Language Models in Mathematical Correction [21.511831985975473]
数学世界問題修正(MWPC)は数学問題の解法における推論誤差の修正を目的とした新しい課題である。
数学的推論と誤り訂正の区別の2つの主要な目的に対処する。
診断指向プロンピング(DOP)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-20T15:13:22Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Can LLMs Learn from Previous Mistakes? Investigating LLMs' Errors to Boost for Reasoning [34.34977150518316]
textscCoTErrorSetは609,432の質問を持つ新しいベンチマークで、それぞれが正しい参照とエラー参照の両方で設計されている。
textbfSelf-rethinking guideing LLMsは、彼らが同じような間違いを犯したかどうかを再考するよう促している。
textbfMistakeチューニングは、正しい推論ドメインと間違った推論ドメインの両方でモデルを微調整する。
論文 参考訳(メタデータ) (2024-03-29T08:30:34Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。
ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。
実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-02-20T14:23:23Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - LLMs cannot find reasoning errors, but can correct them given the error location [0.9017736137562115]
低い自己補正性能は、LLMが既知の誤りを訂正する能力ではなく、論理的な誤りを見つけることができないことに起因する。
我々は,そのミスフィリング能力について,最先端のLLMのいくつかをベンチマークし,そのタスクに一般的に苦労していることを示す。
そこで本研究では,地平線ラベルやドメイン内トレーニングデータを使わずに,誤った位置情報を得られることを示す。
論文 参考訳(メタデータ) (2023-11-14T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。