論文の概要: Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning
- arxiv url: http://arxiv.org/abs/2601.18699v1
- Date: Mon, 26 Jan 2026 17:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.959673
- Title: Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning
- Title(参考訳): 連続微調整時の大規模言語モデルにおけるカタストロフィックフォーミングの力学解析
- Authors: Olaf Yunus Laitinen Imanov,
- Abstract要約: 大規模言語モデルは、事前学習と微調整のパラダイムを通じて、多様なタスクにまたがる顕著なパフォーマンスを示す。
逐次的タスクの連続的な微調整は破滅的な忘れを招き、新たに取得した知識は以前に学習された能力に干渉する。
注意重みの勾配干渉、中間層における表現的ドリフト、および損失景観平坦化の3つの主要なメカニズムを同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models exhibit remarkable performance across diverse tasks through pre-training and fine-tuning paradigms. However, continual fine-tuning on sequential tasks induces catastrophic forgetting, where newly acquired knowledge interferes with previously learned capabilities. Despite widespread observations of this phenomenon, the mechanistic understanding remains limited. Here, we present a comprehensive mechanistic analysis of catastrophic forgetting in transformer-based LLMs during sequential fine-tuning. Through systematic experiments across multiple model scales (109B to 400B total parameters) and task sequences, we identify three primary mechanisms driving forgetting: gradient interference in attention weights, representational drift in intermediate layers, and loss landscape flattening. We demonstrate that forgetting severity correlates strongly with task similarity (Pearson r = 0.87) and gradient alignment metrics. Our analysis reveals that approximately 15 to 23 percent of attention heads undergo severe disruption during fine-tuning, with lower layers showing greater susceptibility. These findings establish mechanistic foundations for developing targeted mitigation strategies in continual learning systems.
- Abstract(参考訳): 大規模言語モデルは、事前学習と微調整のパラダイムを通じて、多様なタスクにまたがる顕著なパフォーマンスを示す。
しかし、逐次的タスクの連続的な微調整は破滅的な忘れを招き、新たに取得した知識は以前に学習した能力に干渉する。
この現象の広範な観察にもかかわらず、力学的な理解は依然として限られている。
本稿では, 逐次微調整中の変圧器型LPMにおける破滅的忘れの包括的機構解析について述べる。
複数のモデルスケール(109Bから400Bの総パラメータ)とタスクシーケンスの体系的な実験を通じて、注意重みの勾配干渉、中間層での表現的ドリフト、損失景観の平坦化の3つの主要なメカニズムを特定した。
重度を忘れることはタスク類似度(ピアソン r = 0.87)と勾配アライメントの指標と強く相関することを示した。
分析の結果、注意の約15~23%が微調整中に深刻な破壊を受けており、低い層の方が感受性が高いことがわかった。
これらの知見は,連続学習システムにおける目標緩和戦略開発のための機械的基盤を確立した。
関連論文リスト
- Spectral Insights into Data-Oblivious Critical Layers in Large Language Models [7.486925126518052]
我々は,事前調整言語モデルにおいて,本質的な臨界層を特定するためのデータ公開アプローチを提案する。
表現空間が著しく変化する層も微調整時に最も影響を受ける層であることを示す。
論文 参考訳(メタデータ) (2025-05-31T04:21:39Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - On Multi-Stage Loss Dynamics in Neural Networks: Mechanisms of Plateau and Descent Stages [1.5235340620594793]
トレーニング中に得られた損失曲線は,初期高原ステージ,初期降下ステージ,二次高原ステージの3つの異なる段階を同定した。
厳密な分析を通じて,高原期における訓練の遅さに寄与する基礎的課題を明らかにする。
論文 参考訳(メタデータ) (2024-10-26T08:16:00Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Small-scale proxies for large-scale Transformer training instabilities [69.36381318171338]
我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。
学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。
ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
論文 参考訳(メタデータ) (2023-09-25T17:48:51Z) - Anatomy of Catastrophic Forgetting: Hidden Representations and Task
Semantics [24.57617154267565]
ニューラルネットワークモデルにおいて,忘れることが表現に与える影響について検討する。
深い層が忘れる原因であることに気付きました。
また,CIFAR-100をベースとした,現実的な入力分布シフトを近似するタスクも導入する。
論文 参考訳(メタデータ) (2020-07-14T23:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。