論文の概要: Learning the Mechanism of Catastrophic Forgetting: A Perspective from Gradient Similarity
- arxiv url: http://arxiv.org/abs/2601.21577v1
- Date: Thu, 29 Jan 2026 11:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.774525
- Title: Learning the Mechanism of Catastrophic Forgetting: A Perspective from Gradient Similarity
- Title(参考訳): カタストロフィックフォーミングのメカニズムを学習する:グラディエント類似性の観点から
- Authors: Mutian Yang, Zisen Zhan, Yutong Chen, Haolin Li, Kaiwen Wang, Kaili Zheng, Yuguang Wang, Qi Wang, Jiandong Gao, Ji Wu,
- Abstract要約: 知識注入時の破滅的な忘れは、大規模言語モデルの継続的な学習能力を著しく損なう。
我々は、破滅的な忘れ方を説明するための勾配に基づく理論的枠組みを確立する。
対立するニューロンを凍結することにより、理論的には破滅的な忘れを排除します。
- 参考スコア(独自算出の注目度): 17.443868359946176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Catastrophic forgetting during knowledge injection severely undermines the continual learning capability of large language models (LLMs). Although existing methods attempt to mitigate this issue, they often lack a foundational theoretical explanation. We establish a gradient-based theoretical framework to explain catastrophic forgetting. We first prove that strongly negative gradient similarity is a fundamental cause of forgetting. We then use gradient similarity to identify two types of neurons: conflicting neurons that induce forgetting and account for 50%-75% of neurons, and collaborative neurons that mitigate forgetting and account for 25%-50%. Based on this analysis, we propose a knowledge injection method, Collaborative Neural Learning (CNL). By freezing conflicting neurons and updating only collaborative neurons, CNL theoretically eliminates catastrophic forgetting under an infinitesimal learning rate eta and an exactly known mastered set. Experiments on five LLMs, four datasets, and four optimizers show that CNL achieves zero forgetting in in-set settings and reduces forgetting by 59.1%-81.7% in out-of-set settings.
- Abstract(参考訳): 知識注入時の破滅的な忘れは、大規模言語モデル(LLM)の継続的な学習能力を著しく損なう。
既存の手法ではこの問題を緩和しようとするが、基礎的な理論的な説明が欠けていることが多い。
我々は、破滅的な忘れ方を説明するための勾配に基づく理論的枠組みを確立する。
我々はまず、強い負の勾配類似性が忘れる根本的な原因であることを証明した。
次に、勾配類似性を用いて2種類のニューロンを同定する: 神経細胞の50%-75%を忘れることと、25%-50%を忘れることを緩和する協調ニューロン。
そこで本研究では,知識注入手法である協調ニューラルラーニング(CNL)を提案する。
対立するニューロンを凍結し、協調するニューロンのみを更新することにより、CNLは理論上、無限小学習率etaと正確に知られたマスターセットの下で破滅的な忘れをなくす。
5つのLCM、4つのデータセット、4つのオプティマイザでの実験では、CNLはインセット設定でゼロの忘れを達成し、設定外設定で59.1%-81.7%の忘れを減らしている。
関連論文リスト
- Integrating Causality with Neurochaos Learning: Proposed Approach and Research Agenda [1.534667887016089]
我々は、より優れた結果を得るために、因果学習とニューロカオス学習のアプローチを統合する方法について検討する。
本稿では,この統合による分類・予測・強化学習の促進に向けたアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-23T15:45:29Z) - Growing Deep Neural Network Considering with Similarity between Neurons [4.32776344138537]
我々は、訓練段階におけるコンパクトモデルにおいて、ニューロン数を漸進的に増加させる新しいアプローチを探求する。
本稿では,ニューロン類似性分布に基づく制約を導入することにより,特徴抽出バイアスと神経冗長性を低減する手法を提案する。
CIFAR-10とCIFAR-100データセットの結果、精度が向上した。
論文 参考訳(メタデータ) (2024-08-23T11:16:37Z) - Hebbian Learning based Orthogonal Projection for Continual Learning of
Spiking Neural Networks [74.3099028063756]
我々は,側方接続とヘビアン学習に基づくニューラル操作を用いた新しい手法を開発した。
我々は,反復する側方接続におけるヘビアン学習と反ヘビアン学習が,神経活動の主部分空間を効果的に抽出できることを示した。
我々の手法は、ほとんど忘れることなくニューラルネットワークをスパイクするために一貫して解決する。
論文 参考訳(メタデータ) (2024-02-19T09:29:37Z) - Decorrelating neurons using persistence [29.25969187808722]
2つの正規化項は、クリッドの最小スパンニングツリーの重みから計算される。
ニューロン間の相関関係を最小化することで、正規化条件よりも低い精度が得られることを示す。
正規化の可微分性の証明を含むので、最初の効果的なトポロジカルな永続性に基づく正規化用語を開発することができる。
論文 参考訳(メタデータ) (2023-08-09T11:09:14Z) - Cortico-cerebellar networks as decoupling neural interfaces [1.1879716317856945]
脳は信用代入問題を著しく解決する。
ニューラルネットワークにまたがってクレジットを割り当てるには、原則として、特定のニューラルネットワーク計算が完了するのを待つ必要がある。
ディープラーニングの手法は、フォワードとフィードバックのフェーズの両方で、同様のロックの制約に悩まされる。
そこで本研究では、大脳皮質がDNIと同様のロック問題を解くのに役立つ特化脳野である小脳を提案する。
論文 参考訳(メタデータ) (2021-10-21T22:02:38Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - Learning a Single Neuron with Bias Using Gradient Descent [53.15475693468925]
単一ニューロンをバイアス項で学習する基本的な問題について検討する。
これはバイアスのないケースとは大きく異なり、より難しい問題であることを示す。
論文 参考訳(メタデータ) (2021-06-02T12:09:55Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。