論文の概要: Learning From Mistakes Makes LLM Better Reasoner
- arxiv url: http://arxiv.org/abs/2310.20689v3
- Date: Sat, 3 Feb 2024 10:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:16:40.128237
- Title: Learning From Mistakes Makes LLM Better Reasoner
- Title(参考訳): 誤りから学ぶ: LLMが推論を改善
- Authors: Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou,
Weizhu Chen
- Abstract要約: 大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
GPT-4を「訂正者」として用い、誤りの理由を説明し、誤りを訂正し、最終的な答えを生成する。
- 参考スコア(独自算出の注目度): 112.83395184036023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) recently exhibited remarkable reasoning
capabilities on solving math problems. To further improve their reasoning
capabilities, this work explores whether LLMs can LEarn from MistAkes (LEMA),
akin to the human learning process. Consider a human student who failed to
solve a math problem, he will learn from what mistake he has made and how to
correct it. Mimicking this error-driven learning process, LEMA incorporates
mistake-correction data pairs during fine-tuning LLMs. Specifically, we first
collect inaccurate reasoning paths from various LLMs, and then employ GPT-4 as
a "corrector" to identify the mistake step, explain the reason for the mistake,
correct the mistake and generate the final answer. In addition, we apply a
correction-centric evolution strategy that effectively expands the question set
for generating correction data. Experiments across various LLMs and reasoning
tasks show that \textsc{LeMa} consistently improves CoT-alone fine-tuning. Our
further analysis sheds light on the non-homogeneous effectiveness between CoT
data and correction data, and the contribution from different correction
information. These results suggest a significant potential for LLMs to improve
through learning from their mistakes. Our code and models are publicly
available at https://github.com/microsoft/LEMA.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
彼らの推論能力をさらに向上するために、この研究は、LLMが人間の学習プロセスに似たミストエイクス(LEMA)から学習できるかどうかを探求する。
数学の問題を解くのに失敗した人間の学生を考えると、彼はどんな間違いを犯し、どのように修正したかを学ぶだろう。
LEMAはこの誤り駆動学習プロセスを模倣し、微調整LDM中に誤り訂正データペアを組み込む。
具体的には、まずまず様々なLCMから不正確な推論経路を収集し、次にGPT-4を「補正」として使用し、誤りの理由を説明し、誤りを訂正し、最終的な答えを生成する。
さらに,修正データ生成のための質問集合を効果的に拡張する補正中心進化戦略を適用する。
様々な LLM の実験や推論タスクにより、 \textsc{LeMa} は CoT-alone ファインチューニングを一貫して改善している。
さらなる分析では,CoTデータと補正データとの非均一性の有効性と,補正情報の違いによる寄与に光を当てる。
これらの結果から,LLMが誤りから学習することで改善する可能性が示唆された。
私たちのコードとモデルはhttps://github.com/microsoft/LEMA.comで公開されています。
関連論文リスト
- Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - S$^3$c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners [23.713779973116733]
自己補正は,大規模言語モデル(LLM)の潜在的な推論能力を刺激する手法である
本稿では,S$3$c-Mathを提案する。
論文 参考訳(メタデータ) (2024-09-03T01:40:21Z) - DOP: Diagnostic-Oriented Prompting for Large Language Models in Mathematical Correction [21.511831985975473]
数学世界問題修正(MWPC)は数学問題の解法における推論誤差の修正を目的とした新しい課題である。
数学的推論と誤り訂正の区別の2つの主要な目的に対処する。
診断指向プロンピング(DOP)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-20T15:13:22Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Can LLMs Learn from Previous Mistakes? Investigating LLMs' Errors to Boost for Reasoning [34.34977150518316]
textscCoTErrorSetは609,432の質問を持つ新しいベンチマークで、それぞれが正しい参照とエラー参照の両方で設計されている。
textbfSelf-rethinking guideing LLMsは、彼らが同じような間違いを犯したかどうかを再考するよう促している。
textbfMistakeチューニングは、正しい推論ドメインと間違った推論ドメインの両方でモデルを微調整する。
論文 参考訳(メタデータ) (2024-03-29T08:30:34Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。
ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。
実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-02-20T14:23:23Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - LLMs cannot find reasoning errors, but can correct them given the error location [0.9017736137562115]
低い自己補正性能は、LLMが既知の誤りを訂正する能力ではなく、論理的な誤りを見つけることができないことに起因する。
我々は,そのミスフィリング能力について,最先端のLLMのいくつかをベンチマークし,そのタスクに一般的に苦労していることを示す。
そこで本研究では,地平線ラベルやドメイン内トレーニングデータを使わずに,誤った位置情報を得られることを示す。
論文 参考訳(メタデータ) (2023-11-14T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。