論文の概要: EULER: Enhancing the Reasoning Ability of Large Language Models through Error-Induced Learning
- arxiv url: http://arxiv.org/abs/2505.22131v1
- Date: Wed, 28 May 2025 08:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.517117
- Title: EULER: Enhancing the Reasoning Ability of Large Language Models through Error-Induced Learning
- Title(参考訳): EULER: 誤り誘発学習による大規模言語モデルの推論能力向上
- Authors: Zhuoyang Wu, Xinze Li, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Minghe Yu, Cheng Yang, Yu Gu, Ge Yu, Maosong Sun,
- Abstract要約: 大きな言語モデル(LLM)は強力な推論能力を示している。
Error-IndUced LEaRning (EULER) モデルは、高品質なソリューションエラーを生成するエラー露光モデルを開発することを目的としている。
- 参考スコア(独自算出の注目度): 66.82956219777763
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong reasoning capabilities and achieved promising results in mathematical problem-solving tasks. Learning from errors offers the potential to further enhance the performance of LLMs during Supervised Fine-Tuning (SFT). However, the errors in synthesized solutions are typically gathered from sampling trails, making it challenging to generate solution errors for each mathematical problem. This paper introduces the Error-IndUced LEaRning (EULER) model, which aims to develop an error exposure model that generates high-quality solution errors to enhance the mathematical reasoning capabilities of LLMs. Specifically, EULER optimizes the error exposure model to increase the generation probability of self-made solution errors while utilizing solutions produced by a superior LLM to regularize the generation quality. Our experiments across various mathematical problem datasets demonstrate the effectiveness of the EULER model, achieving an improvement of over 4% compared to all baseline models. Further analysis reveals that EULER is capable of synthesizing more challenging and educational solution errors, which facilitate both the training and inference processes of LLMs. All codes are available at https://github.com/NEUIR/EULER.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強力な推論能力を示し、数学的問題解決タスクにおいて有望な結果を得た。
エラーからの学習は、Supervised Fine-Tuning (SFT)中のLLMの性能をさらに向上させる可能性がある。
しかし、合成された解の誤差は通常サンプリング・トレイルから収集されるため、各数学的問題に対する解の誤りを生成することは困難である。
本稿では,LLMの数学的推論能力を高めるために,高品質な解誤差を生成する誤差露光モデルを開発することを目的としたError-IndUced LEaRning(EULER)モデルを提案する。
具体的には、エラー露光モデルを最適化し、優れたLCMが生成したソリューションを活用して、自己生成したソリューションエラーの発生確率を増大させ、生成品質を規則化する。
各種数学問題データセットを対象とした実験により,EULERモデルの有効性を実証し,全てのベースラインモデルと比較して4%以上の改善を実現した。
さらなる分析により、EULERはより困難で教育的なソリューションエラーを合成することができ、LLMのトレーニングと推論プロセスの両方を容易にすることが判明した。
すべてのコードはhttps://github.com/NEUIR/EULERで入手できる。
関連論文リスト
- LEMMA: Learning from Errors for MatheMatical Advancement in LLMs [33.571479131705075]
我々は,大規模言語モデルの推論能力を高めるために,数学的発展のための誤りからの学習(LEMMA)を導入する。
LEMMAは、誤ったステップの間違った解と、微調整のための正しい解への反射接続からなるデータを構成する。
実験結果から, LEMMAは他の強力なベースラインよりも高い性能向上が得られた。
論文 参考訳(メタデータ) (2025-03-21T17:59:10Z) - Multi-Objective Large Language Model Unlearning [3.372396620898397]
グラディエント・アセント(GA)は、対象データ上のモデルの予測確率を減少させるプロアクティブな方法である。
本稿では,多目的大規模言語モデル学習(MOLLM)アルゴリズムを提案する。
実験の結果,MLLM が SOTA GA をベースとした LLM アンラーニング法よりも非ラーニング効果とモデルユーティリティ保存の点で優れていたことが確認された。
論文 参考訳(メタデータ) (2024-12-29T09:35:56Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - S^3cMath: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners [23.713779973116733]
自己補正は,大規模言語モデル(LLM)の潜在的な推論能力を刺激する手法である
本稿では,S$3$c-Mathを提案する。
論文 参考訳(メタデータ) (2024-09-03T01:40:21Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Pareto Optimal Learning for Estimating Large Language Model Errors [12.21899680905672]
大規模言語モデル(LLM)は多くのアプリケーションで印象的な能力を示している。
複数の情報ソースを統合することで,LSM応答における誤り確率を推定するリスクスコアを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-28T21:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。