論文の概要: EULER: Enhancing the Reasoning Ability of Large Language Models through Error-Induced Learning
- arxiv url: http://arxiv.org/abs/2505.22131v1
- Date: Wed, 28 May 2025 08:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.517117
- Title: EULER: Enhancing the Reasoning Ability of Large Language Models through Error-Induced Learning
- Title(参考訳): EULER: 誤り誘発学習による大規模言語モデルの推論能力向上
- Authors: Zhuoyang Wu, Xinze Li, Zhenghao Liu, Yukun Yan, Zhiyuan Liu, Minghe Yu, Cheng Yang, Yu Gu, Ge Yu, Maosong Sun,
- Abstract要約: 大きな言語モデル(LLM)は強力な推論能力を示している。
Error-IndUced LEaRning (EULER) モデルは、高品質なソリューションエラーを生成するエラー露光モデルを開発することを目的としている。
- 参考スコア(独自算出の注目度): 66.82956219777763
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong reasoning capabilities and achieved promising results in mathematical problem-solving tasks. Learning from errors offers the potential to further enhance the performance of LLMs during Supervised Fine-Tuning (SFT). However, the errors in synthesized solutions are typically gathered from sampling trails, making it challenging to generate solution errors for each mathematical problem. This paper introduces the Error-IndUced LEaRning (EULER) model, which aims to develop an error exposure model that generates high-quality solution errors to enhance the mathematical reasoning capabilities of LLMs. Specifically, EULER optimizes the error exposure model to increase the generation probability of self-made solution errors while utilizing solutions produced by a superior LLM to regularize the generation quality. Our experiments across various mathematical problem datasets demonstrate the effectiveness of the EULER model, achieving an improvement of over 4% compared to all baseline models. Further analysis reveals that EULER is capable of synthesizing more challenging and educational solution errors, which facilitate both the training and inference processes of LLMs. All codes are available at https://github.com/NEUIR/EULER.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強力な推論能力を示し、数学的問題解決タスクにおいて有望な結果を得た。
エラーからの学習は、Supervised Fine-Tuning (SFT)中のLLMの性能をさらに向上させる可能性がある。
しかし、合成された解の誤差は通常サンプリング・トレイルから収集されるため、各数学的問題に対する解の誤りを生成することは困難である。
本稿では,LLMの数学的推論能力を高めるために,高品質な解誤差を生成する誤差露光モデルを開発することを目的としたError-IndUced LEaRning(EULER)モデルを提案する。
具体的には、エラー露光モデルを最適化し、優れたLCMが生成したソリューションを活用して、自己生成したソリューションエラーの発生確率を増大させ、生成品質を規則化する。
各種数学問題データセットを対象とした実験により,EULERモデルの有効性を実証し,全てのベースラインモデルと比較して4%以上の改善を実現した。
さらなる分析により、EULERはより困難で教育的なソリューションエラーを合成することができ、LLMのトレーニングと推論プロセスの両方を容易にすることが判明した。
すべてのコードはhttps://github.com/NEUIR/EULERで入手できる。
関連論文リスト
- Error Detection and Correction for Interpretable Mathematics in Large Language Models [5.258949636570995]
EDCIM (Error Detection and Correction for Interpretable Mathematics) は、解釈可能な数学タスクにおいて、これらの誤りを検出し、修正する手法である。
軽量でオープンソースのLCMとより強力なプロプライエタリなモデルを統合し、コストと精度のバランスをとる。
実験の結果,EDCIMは予測精度を維持しつつも,計算コストと財務コストの両方を著しく削減することがわかった。
論文 参考訳(メタデータ) (2025-08-05T14:30:35Z) - WarriorMath: Enhancing the Mathematical Ability of Large Language Models with a Defect-aware Framework [42.74246647841103]
WarriorMathは数学的問題解決のための欠陥認識フレームワークである。
我々は、複数の専門家のLLMを協調的なプロセスで採用し、問題を生成、批判、洗練させます。
トレーニング段階において、我々は、その弱点に合わせてますます困難なデータを用いてモデルを反復的に微調整する進歩的学習フレームワークを導入する。
論文 参考訳(メタデータ) (2025-08-02T07:45:12Z) - LEMMA: Learning from Errors for MatheMatical Advancement in LLMs [33.571479131705075]
我々は,大規模言語モデルの推論能力を高めるために,数学的発展のための誤りからの学習(LEMMA)を導入する。
LEMMAは、誤ったステップの間違った解と、微調整のための正しい解への反射接続からなるデータを構成する。
実験結果から, LEMMAは他の強力なベースラインよりも高い性能向上が得られた。
論文 参考訳(メタデータ) (2025-03-21T17:59:10Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Multi-Objective Large Language Model Unlearning [3.372396620898397]
グラディエント・アセント(GA)は、対象データ上のモデルの予測確率を減少させるプロアクティブな方法である。
本稿では,多目的大規模言語モデル学習(MOLLM)アルゴリズムを提案する。
実験の結果,MLLM が SOTA GA をベースとした LLM アンラーニング法よりも非ラーニング効果とモデルユーティリティ保存の点で優れていたことが確認された。
論文 参考訳(メタデータ) (2024-12-29T09:35:56Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - S^3cMath: Spontaneous Step-level Self-correction Makes Large Language Models Better Mathematical Reasoners [23.713779973116733]
自己補正は,大規模言語モデル(LLM)の潜在的な推論能力を刺激する手法である
本稿では,S$3$c-Mathを提案する。
論文 参考訳(メタデータ) (2024-09-03T01:40:21Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Pareto Optimal Learning for Estimating Large Language Model Errors [12.21899680905672]
大規模言語モデル(LLM)は多くのアプリケーションで印象的な能力を示している。
複数の情報ソースを統合することで,LSM応答における誤り確率を推定するリスクスコアを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-28T21:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。