Fugu-MT 論文翻訳(概要): Learning From Mistakes Makes LLM Better Reasoner

論文の概要: Learning From Mistakes Makes LLM Better Reasoner

arxiv url: http://arxiv.org/abs/2310.20689v1
Date: Tue, 31 Oct 2023 17:52:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 13:36:58.465530
Title: Learning From Mistakes Makes LLM Better Reasoner
Title（参考訳）: 誤りから学ぶ: LLMが推論を改善
Authors: Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, Weizhu Chen
Abstract要約: 大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。この研究は、人間の学習プロセスに似た、ミステイクからの学習(LeMa)を提案する。 GPT-4で生成した誤り補正データ対上のLeMa微細構造LSM
参考スコア（独自算出の注目度）: 112.83395184036023
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) recently exhibited remarkable reasoning capabilities on solving math problems. To further improve this capability, this work proposes Learning from Mistakes (LeMa), akin to human learning processes. Consider a human student who failed to solve a math problem, he will learn from what mistake he has made and how to correct it. Mimicking this error-driven learning process, LeMa fine-tunes LLMs on mistake-correction data pairs generated by GPT-4. Specifically, we first collect inaccurate reasoning paths from various LLMs and then employ GPT-4 as a "corrector" to (1) identify the mistake step, (2) explain the reason for the mistake, and (3) correct the mistake and generate the final answer. Experimental results demonstrate the effectiveness of LeMa: across five backbone LLMs and two mathematical reasoning tasks, LeMa consistently improves the performance compared with fine-tuning on CoT data alone. Impressively, LeMa can also benefit specialized LLMs such as WizardMath and MetaMath, achieving 85.4% pass@1 accuracy on GSM8K and 27.1% on MATH. This surpasses the SOTA performance achieved by non-execution open-source models on these challenging tasks. Our code, data and models will be publicly available at https://github.com/microsoft/CodeT.
Abstract（参考訳）: 大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。この能力をさらに改善するために、人間の学習プロセスに似た、ミステイクからの学習(LeMa)を提案する。数学の問題を解くのに失敗した人間の学生を考えると、彼はどんな間違いを犯し、どのように修正したかを学ぶだろう。この誤り駆動学習過程を模倣し、GPT-4によって生成された誤り訂正データ対上のLeMa微細構造LPM。具体的には,まずまず様々なLCMから不正確な推論経路を収集し,(1)ミスステップの特定,(2)ミスの原因の説明,(3)ミスの修正,そして最終回答の生成にGPT-4を"コレクタ"として利用する。 5つのバックボーンLLMと2つの数学的推論タスクにまたがって、LeMaはCoTデータのみの微調整に比べて一貫して性能を改善している。印象的なことに、LeMaはWizardMathやMetaMathのような特殊なLLMの恩恵を受けることができ、GSM8Kでは85.4%のパス@1精度、MATHでは27.1%の精度を実現している。これは、これらの困難なタスクにおいて非実行オープンソースのモデルによって達成されるSOTAのパフォーマンスを上回る。私たちのコード、データ、モデルはhttps://github.com/microsoft/CodeT.comで公開されます。

関連論文リスト

LEMMA: Learning from Errors for MatheMatical Advancement in LLMs [33.571479131705075]
我々は,大規模言語モデルの推論能力を高めるために,数学的発展のための誤りからの学習(LEMMA)を導入する。 LEMMAは、誤ったステップの間違った解と、微調整のための正しい解への反射接続からなるデータを構成する。実験結果から, LEMMAは他の強力なベースラインよりも高い性能向上が得られた。
論文参考訳（メタデータ） (2025-03-21T17:59:10Z)
LLMs can implicitly learn from mistakes in-context [15.818061010632249]
本研究では,Large Language Models (LLMs) が,説明が得られない場合の数学的推論タスクの誤りから学習できるかどうかを検討する。驚くべきことに、LLMは文脈から有理性を取り除いた場合、平均して性能が向上する。このアプローチは、私たちの評価においてチェーン・オブ・シークレット・プロンプトよりも大幅に優れています。
論文参考訳（メタデータ） (2025-02-12T16:31:21Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。既存の数式語問題に対して,それらの性能を併用して評価する。
論文参考訳（メタデータ） (2024-10-02T17:01:10Z)
S$^3$c-Math: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners [23.713779973116733]
自己補正は,大規模言語モデル(LLM)の潜在的な推論能力を刺激する手法である本稿では,S$3$c-Mathを提案する。
論文参考訳（メタデータ） (2024-09-03T01:40:21Z)
DOP: Diagnostic-Oriented Prompting for Large Language Models in Mathematical Correction [21.511831985975473]
数学世界問題修正(MWPC)は数学問題の解法における推論誤差の修正を目的とした新しい課題である。数学的推論と誤り訂正の区別の2つの主要な目的に対処する。診断指向プロンピング(DOP)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-20T15:13:22Z)
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。 CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文参考訳（メタデータ） (2024-04-23T12:16:05Z)
Can LLMs Learn from Previous Mistakes? Investigating LLMs' Errors to Boost for Reasoning [34.34977150518316]
textscCoTErrorSetは609,432の質問を持つ新しいベンチマークで、それぞれが正しい参照とエラー参照の両方で設計されている。 textbfSelf-rethinking guideing LLMsは、彼らが同じような間違いを犯したかどうかを再考するよう促している。 textbfMistakeチューニングは、正しい推論ドメインと間違った推論ドメインの両方でモデルを微調整する。
論文参考訳（メタデータ） (2024-03-29T08:30:34Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models [5.463333911506443]
我々は,タスクチェックのためのトレーニングデータを構築することで,大規模言語モデル(LLM)の自己チェック能力を向上させることを目指している。ステップCoTチェック(Step CoT Check)と呼ばれる特殊なチェックフォーマットを提案する。実験により、"Step CoT Check"フォーマットによる微調整により、LCMの自己チェックと自己補正能力が大幅に向上することが示された。
論文参考訳（メタデータ） (2024-02-20T14:23:23Z)
The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文参考訳（メタデータ） (2024-01-01T14:02:27Z)
LLMs cannot find reasoning errors, but can correct them given the error location [0.9017736137562115]
低い自己補正性能は、LLMが既知の誤りを訂正する能力ではなく、論理的な誤りを見つけることができないことに起因する。我々は,そのミスフィリング能力について,最先端のLLMのいくつかをベンチマークし,そのタスクに一般的に苦労していることを示す。そこで本研究では,地平線ラベルやドメイン内トレーニングデータを使わずに,誤った位置情報を得られることを示す。
論文参考訳（メタデータ） (2023-11-14T20:12:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。