論文の概要: Self-Error-Instruct: Generalizing from Errors for LLMs Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2505.22591v1
- Date: Wed, 28 May 2025 17:02:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.750689
- Title: Self-Error-Instruct: Generalizing from Errors for LLMs Mathematical Reasoning
- Title(参考訳): 自己エラー命令:数学的推論のためのエラーから一般化する
- Authors: Erxin Yu, Jing Li, Ming Liao, Qi Zhu, Boyang Xue, Minghui Xu, Baojun Wang, Lanqing Hong, Fei Mi, Lifeng Shang,
- Abstract要約: 本稿では,モデルの弱点に対処し,より一般化された目標学習データを合成するフレームワークであるSelf-Error-Instruct(SEI)を提案する。
具体的には、2つの数学的データセット(GSM8KとMATH)のターゲットモデルを探索し、悪い事例を特定する。
次に、同定されたエラータイプ毎の世代毎にいくつかの悪いケースをサンプリングし、インストラクターモデルに入力し、追加のトレーニングデータを合成する。
- 参考スコア(独自算出の注目度): 42.089912289949154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models demonstrate strong performance across various domains, they still struggle with numerous bad cases in mathematical reasoning. Previous approaches to learning from errors synthesize training data by solely extrapolating from isolated bad cases, thereby failing to generalize the extensive patterns inherent within these cases. This paper presents Self-Error-Instruct (SEI), a framework that addresses these model weaknesses and synthesizes more generalized targeted training data. Specifically, we explore a target model on two mathematical datasets, GSM8K and MATH, to pinpoint bad cases. Then, we generate error keyphrases for these cases based on the instructor model's (GPT-4o) analysis and identify error types by clustering these keyphrases. Next, we sample a few bad cases during each generation for each identified error type and input them into the instructor model, which synthesizes additional training data using a self-instruct approach. This new data is refined through a one-shot learning process to ensure that only the most effective examples are kept. Finally, we use these curated data to fine-tune the target model, iteratively repeating the process to enhance performance. We apply our framework to various models and observe improvements in their reasoning abilities across both in-domain and out-of-domain mathematics datasets. These results demonstrate the effectiveness of self-error instruction in improving LLMs' mathematical reasoning through error generalization.
- Abstract(参考訳): 大規模言語モデルは様々な領域で強い性能を示すが、数学的推論において多くの悪いケースに苦戦している。
エラーから学習するための従来のアプローチは、孤立した悪いケースからのみ外挿することでトレーニングデータを合成し、これらのケースに固有の広範なパターンを一般化することができない。
本稿では、これらのモデルの弱点に対処し、より一般化された目標学習データを合成するフレームワークであるSelf-Error-Instruct(SEI)を提案する。
具体的には、2つの数学的データセット(GSM8KとMATH)のターゲットモデルを探索し、悪い事例を特定する。
そして、インストラクターモデル(GPT-4o)解析に基づいて、これらのケースのエラーキーフレーズを生成し、これらのキーフレーズをクラスタリングすることでエラータイプを識別する。
次に、同定されたエラータイプ毎の世代毎にいくつかの悪いケースをサンプリングし、インストラクターモデルに入力し、自己インストラクションアプローチを用いて追加のトレーニングデータを合成する。
この新しいデータはワンショットの学習プロセスを通じて洗練され、最も効果的な例のみを確実に保持する。
最後に、これらのキュレートされたデータを用いてターゲットモデルを微調整し、反復的にプロセスを繰り返して性能を向上させる。
我々は,フレームワークを様々なモデルに適用し,ドメイン内およびドメイン外両方の数学データセットにまたがる推論能力の改善を観察する。
これらの結果は、誤り一般化によるLLMの数学的推論を改善するための自己エラー命令の有効性を示す。
関連論文リスト
- Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Distributionally robust self-supervised learning for tabular data [2.942619386779508]
エラースライスの存在下での堅牢な表現の学習は、高い濃度特徴とエラーセットの構築の複雑さのために困難である。
従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点をあてている。
提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。
論文 参考訳(メタデータ) (2024-10-11T04:23:56Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。