論文の概要: Mitigating Catastrophic Forgetting in Mathematical Reasoning Finetuning through Mixed Training
- arxiv url: http://arxiv.org/abs/2512.13706v1
- Date: Fri, 05 Dec 2025 17:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.760017
- Title: Mitigating Catastrophic Forgetting in Mathematical Reasoning Finetuning through Mixed Training
- Title(参考訳): 混合訓練による数理推論ファインタニングにおける破滅的鍛造の軽減
- Authors: John Graham Reynolds,
- Abstract要約: 数学的推論のような特殊タスクのための大規模言語モデルを微調整すると、モデルは破滅的な忘れ込みを示し、以前に学習された能力を失う。
我々は、DeepMindの数学データセット上でFlan-T5-Base(250Mパラメータ)を微調整し、MultiNLI上での忘れを計測することでこれを検証した。
数学のみのトレーニングは数学の精度を3.1%から12.0%に改善するが、NLIの精度は81.0%から16.5%に低下する。
数学とNLIの例を交互に学習する混合学習戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When finetuning large language models for specialized tasks such as mathematical reasoning, models exhibit catastrophic forgetting, losing previously learned capabilities. We investigate this by finetuning Flan-T5-Base (250M parameters) on the DeepMind Mathematics dataset and measuring forgetting on MultiNLI. Math-only training improves mathematical accuracy from 3.1\% to 12.0\% but causes NLI accuracy to collapse from 81.0\% to 16.5\%--a 64.5 percentage point drop occurring within the first 1,000 training steps. We propose mixed training strategies that interleave mathematical and NLI examples during training. Our results demonstrate that mixed training completely eliminates catastrophic forgetting while maintaining equivalent mathematical performance: the balanced 1:1 ratio achieves 12.0\% math accuracy (matching math-only) while preserving 86.2\% NLI accuracy. We systematically explore mixing ratios from 1:1 to 15:1, finding that even minimal NLI exposure (6.2\%) provides effective regularization. These findings demonstrate that specialization need not require forgetting general capabilities, with implications for scaling to larger models where mixed training may confer additional benefits beyond forgetting prevention.
- Abstract(参考訳): 数学的推論のような特殊タスクのための大規模言語モデルを微調整すると、モデルは破滅的な忘れ込みを示し、以前に学習された能力を失う。
我々は、DeepMindの数学データセット上でFlan-T5-Base(250Mパラメータ)を微調整し、MultiNLI上での忘れを計測することでこれを検証した。
数学のみのトレーニングは数学の精度を3.1\%から12.0\%に改善するが、NLIの精度は81.0\%から16.5\%に崩壊する。
数学とNLIの例を交互に学習する混合学習戦略を提案する。
その結果, 混合学習は, 等価な数学的性能を維持しつつ, 破滅的な忘れを完全に排除し, バランスの取れた1:1比は, 86.2\%のNLI精度を維持しつつ, 12.0\%の数学精度(数学のみのマッチング)を達成した。
我々は1:1から15:1の混合比を体系的に検討し、最小のNLI露光(6.2\%)でさえ効果的な正則化をもたらすことを発見した。
これらの結果から, 総合能力を忘れる必要はなく, 混合訓練が予防を忘れる以外に付加的な利益をもたらす可能性がある大規模モデルへのスケーリングが示唆された。
関連論文リスト
- DualSparse-MoE: Coordinating Tensor/Neuron-Level Sparsity with Expert Partition and Reconstruction [15.261077484922616]
Mixture of Experts (MoE) はLarge Language Models (LLM) の主流アーキテクチャとなった。
トレーニング済みMoEモジュールにおけるテンソルとニューロンの二重間隔を精度と効率の両立の鍵因子として同定した。
本稿では,動的テンソルレベル低下と静的ニューロンレベル再構成を統合する推論システムであるDualSparse-MoEを提案する。
論文 参考訳(メタデータ) (2025-08-25T18:08:32Z) - LIMO: Less is More for Reasoning [23.312893016642096]
数例の例で、洗練された数学的推論が実現可能であることを実証する。
LIMOはAIME24では63.3%,MATH500では95.6%の精度を実現している。
LIMOは、様々なベンチマークで45.8%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-02-05T17:23:45Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Aioli: A Unified Optimization Framework for Language Model Data Mixing [74.50480703834508]
提案手法は, 単層サンプリングベースラインを平均的なテストパープレキシティで一貫した性能を発揮できないことを示す。
我々は、Aioliという新しいオンライン手法を導き、トレーニング全体を通して法パラメータの混合を直接推定し、それらを用いて比率を動的に調整する。
論文 参考訳(メタデータ) (2024-11-08T17:50:24Z) - Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - Dynamic Sparse Training via Balancing the Exploration-Exploitation
Trade-off [19.230329532065635]
スパーストレーニングは、モデルサイズを減らすことで、トレーニングコストを大幅に削減する可能性がある。
既存のスパーストレーニング方法は、主にランダムベースまたはグリーディベースのドロップ・アンド・グロー戦略を使用する。
本研究では,動的スパース学習をスパース接続探索問題として考察する。
実験の結果,提案手法により得られたスパースモデル(最大98%のスパース)は,SOTAスパース訓練法より優れていた。
論文 参考訳(メタデータ) (2022-11-30T01:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。