論文の概要: Mitigating Catastrophic Forgetting in Continual Learning through Model Growth
- arxiv url: http://arxiv.org/abs/2509.01213v1
- Date: Mon, 01 Sep 2025 07:51:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.585206
- Title: Mitigating Catastrophic Forgetting in Continual Learning through Model Growth
- Title(参考訳): モデル成長による連続学習におけるカタストロフィック・フォーミングの軽減
- Authors: Ege Süalp, Mina Rezaei,
- Abstract要約: 破滅的な忘れは連続的な学習において重要な課題であり、新しいタスクに微調整された場合、モデルは事前の知識を失う。
この問題は、様々な領域にまたがるパフォーマンスを維持することが、その汎用性にとって重要であるため、継続学習を行う大規模言語モデルにとって特に重要である。
成長に基づく事前学習が、ドメイン知識、推論、読解、バイアスを含む一連の微調整タスクにおいて、より効果的に学習能力を維持することができるかどうかを評価する。
- 参考スコア(独自算出の注目度): 3.027322177899458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Catastrophic forgetting is a significant challenge in continual learning, in which a model loses prior knowledge when it is fine-tuned on new tasks. This problem is particularly critical for large language models (LLMs) undergoing continual learning, as retaining performance across diverse domains is important for their general utility. In this paper, we explore model growth, a promising strategy that leverages smaller models to expedite and structure the training of larger ones for mitigating the catastrophic forgetting problem. Although growth-based pretraining, particularly via transformer stacking, has shown promise in accelerating convergence, its impact on forgetting remains under-explored. Therefore, we evaluate whether growth-based models can retain previously learned capabilities more effectively across a sequence of fine-tuning tasks involving domain knowledge, reasoning, reading comprehension, and bias. Our findings show that both models -- one trained with growth (Stack LLM) and one without (LLM) -- exhibit improvements in domain knowledge. However, reasoning and reading comprehension degrade over time, indicating signs of catastrophic forgetting. Stack LLM consistently shows less degradation, especially in reading comprehension, suggesting enhanced retention capabilities. Interestingly, in bias evaluation, the baseline LLM becomes progressively more neutral with continued fine-tuning, while Stack LLM maintains a steady bias ratio around 60--61\%. These results indicate that growth-based pretraining may deliver modest improvements in resisting catastrophic forgetting, though trade-offs remain in handling social biases.
- Abstract(参考訳): 破滅的な忘れは連続的な学習において重要な課題であり、新しいタスクに微調整された場合、モデルは事前の知識を失う。
この問題は,大規模言語モデル(LLM)において特に重要であり,多種多様なドメインのパフォーマンスを維持することは,その汎用性にとって重要である。
本稿では,より小さなモデルを活用して,大きめのモデルの学習を迅速かつ構造化し,破滅的な忘れる問題を緩和する,有望な戦略であるモデル成長について検討する。
成長に基づく事前学習、特にトランスフォーマーの積み重ねは、収束の加速を約束しているが、忘れることに対する影響は未解明のままである。
そこで、我々は、ドメイン知識、推論、読解、バイアスを含む一連の微調整タスクにおいて、成長ベースのモデルがより効果的に学習能力を維持することができるかどうかを評価する。
以上の結果から,2つのモデル – Stack LLM (Stack LLM) と without (LLM) でトレーニングしたモデル – が,ドメイン知識の向上を示すことがわかった。
しかし、推論と読解は時間の経過とともに低下し、破滅的な忘れの兆候を示す。
Stack LLMは、特に読解において、一貫性の低い劣化を示し、保持能力の向上を示唆している。
興味深いことに、バイアス評価において、ベースラインLLMは微調整が継続するにつれて徐々に中立になり、スタックLLMは60~61%程度の安定したバイアス比を維持している。
これらの結果は、成長に基づく事前訓練が、社会的偏見に対処する上でのトレードオフにもかかわらず、破滅的な忘れ込みに抵抗する上で、控えめな改善をもたらす可能性を示唆している。
関連論文リスト
- The Importance of Being Lazy: Scaling Limits of Continual Learning [60.97756735877614]
モデル幅の増大は,特徴学習の量を減らし,遅延度を高めた場合にのみ有益であることを示す。
特徴学習,タスク非定常性,および忘れることの複雑な関係について検討し,高い特徴学習が極めて類似したタスクにのみ有用であることを示す。
論文 参考訳(メタデータ) (2025-06-20T10:12:38Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - Overcoming Growth-Induced Forgetting in Task-Agnostic Continual Learning [9.91929539637026]
連続学習(CL)では、モデルの成長は新しいデータに対する適応性を高め、より多くのタスクに対する知識保持を改善する。
しかし、不適切なモデルの成長は、特にタスクに依存しないCLにおいて、推論のために成長したモデル全体を用いて、事前学習した知識を著しく劣化させる可能性がある。
本稿では,新しいデータに対する適応性を向上しつつ,GIFtの問題を克服する新しいSparseGrow手法を提案する。
論文 参考訳(メタデータ) (2024-08-20T06:05:52Z) - Investigating Continual Pretraining in Large Language Models: Insights and Implications [9.660013084324817]
大規模言語モデル(LLM)における継続的な学習は、効率的で持続可能なトレーニング戦略の開発に焦点を当てた進化途上のドメインである。
我々は,LLMの事前学習データランドスケープの変化に対する適応性を測定するために,新しいベンチマークを導入する。
i) 継続事前学習は、この研究で研究された1.5Bモデルを継続的に改善し、ドメイン適応よりも優れていること、(ii) より大きなモデルは、同じコーパス上で継続的に事前訓練された場合、より小さなモデルよりもずっと複雑であること、(iii) より小さなモデルは、特に連続事前訓練に敏感であること、そして、学習と学習の双方において最も有意な割合を示すこと、など、いくつかの重要な知見が明らかになった。
論文 参考訳(メタデータ) (2024-02-27T10:47:24Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。