論文の概要: Why Do Neural Networks Forget: A Study of Collapse in Continual Learning
- arxiv url: http://arxiv.org/abs/2603.04580v1
- Date: Wed, 04 Mar 2026 20:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.966009
- Title: Why Do Neural Networks Forget: A Study of Collapse in Continual Learning
- Title(参考訳): ニューラルネットワークが忘れる理由:継続的学習における崩壊の研究
- Authors: Yunqin Zhu, Jun Jin,
- Abstract要約: 破滅的な忘れは継続的な学習において大きな問題であり、それを減らすために多くのアプローチが生じる。
最近の研究は、構造崩壊が有効ランクの変化(eRank)によって証明されるように、可塑性の喪失につながることを示唆している。
本研究では,重みとアクティベーションeRankの測定により,忘れと崩壊の相関について検討した。
- 参考スコア(独自算出の注目度): 1.9345014784026022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Catastrophic forgetting is a major problem in continual learning, and lots of approaches arise to reduce it. However, most of them are evaluated through task accuracy, which ignores the internal model structure. Recent research suggests that structural collapse leads to loss of plasticity, as evidenced by changes in effective rank (eRank). This indicates a link to forgetting, since the networks lose the ability to expand their feature space to learn new tasks, which forces the network to overwrite existing representations. Therefore, in this study, we investigate the correlation between forgetting and collapse through the measurement of both weight and activation eRank. To be more specific, we evaluated four architectures, including MLP, ConvGRU, ResNet-18, and Bi-ConvGRU, in the split MNIST and Split CIFAR-100 benchmarks. Those models are trained through the SGD, Learning-without-Forgetting (LwF), and Experience Replay (ER) strategies separately. The results demonstrate that forgetting and collapse are strongly related, and different continual learning strategies help models preserve both capacity and performance in different efficiency.
- Abstract(参考訳): 破滅的な忘れは継続的な学習において大きな問題であり、それを減らすために多くのアプローチが生じる。
しかし,そのほとんどは内部モデル構造を無視したタスク精度で評価されている。
最近の研究は、構造崩壊が有効ランクの変化(eRank)によって証明されるように、可塑性の喪失につながることを示唆している。
これは、ネットワークが機能領域を拡張して新しいタスクを学習する能力を失うため、ネットワークが既存の表現を上書きすることを強制することを意味している。
そこで本研究では,重みとアクティベーションeRankの測定により,忘れと崩壊の相関について検討した。
より具体的には、MNISTとSplit CIFAR-100ベンチマークで、MLP、ConvGRU、ResNet-18、Bi-ConvGRUの4つのアーキテクチャを評価した。
これらのモデルは、SGD、Learning-with-fortting(LwF)、Experience Replay(ER)戦略を別々にトレーニングする。
その結果, 忘れと崩壊が強く関連していることが示され, 連続学習戦略の相違により, モデルがキャパシティと性能の両面を異なる効率で維持できることがわかった。
関連論文リスト
- Catastrophic Forgetting in Kolmogorov-Arnold Networks [27.683054983159835]
破滅的な忘れは継続的な学習における長年の挑戦である。
Kolmogorov-Arnold Networks (KANs) のような最近のアーキテクチャの進歩は、忘れることに対する本質的な抵抗を提供するように提案されている。
本稿では,カーンズにおける破滅的な忘れを包括的に研究し,忘れをアクティベーションサポートの重複と本質的なデータ次元に結びつける理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-11-16T23:22:50Z) - Rethinking Hebbian Principle: Low-Dimensional Structural Projection for Unsupervised Learning [17.299267108673277]
ヘビアンラーニング(Hebbian learning)は、ニューロンが繰り返し刺激によって接続をどのように適応するかを直感的に記述する生物学的原理である。
本稿では,新しい教師なし学習手法である構造投影ヘビアン表現(SPHeRe)を紹介する。
実験結果から,SPHeReは教師なしシナプス可塑性アプローチにおいてSOTA性能を実現することが示された。
論文 参考訳(メタデータ) (2025-10-16T15:47:29Z) - The Importance of Being Lazy: Scaling Limits of Continual Learning [60.97756735877614]
モデル幅の増大は,特徴学習の量を減らし,遅延度を高めた場合にのみ有益であることを示す。
特徴学習,タスク非定常性,および忘れることの複雑な関係について検討し,高い特徴学習が極めて類似したタスクにのみ有用であることを示す。
論文 参考訳(メタデータ) (2025-06-20T10:12:38Z) - The Other Side of the Coin: Unveiling the Downsides of Model Aggregation in Federated Learning from a Layer-peeled Perspective [12.916988821333124]
FL(Federated Learning)では、複数のクライアントが知識を相互に共有する上で、モデルアグリゲーションが重要なステップとなります。
この一時的な性能低下は、FLモデルの収束を遅くする可能性がある。
本稿では,モデルアグリゲーションの負の影響を軽減するための,単純かつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2025-02-05T14:45:56Z) - Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。
まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。
次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文 参考訳(メタデータ) (2024-10-25T20:50:32Z) - Order parameters and phase transitions of continual learning in deep neural networks [6.349503549199403]
継続学習(CL)により、動物は事前知識を消去することなく新しいタスクを学習することができる。
ニューラルネットワーク(NN)におけるCLは、破滅的な忘れが原因で困難であり、新しい学習は古いタスクのパフォーマンスを低下させる。
本稿では,ネットワークの入出力マッピングがタスク列を学習する際に特徴付ける,深層広帯域NNにおけるCLの統計力学理論を提案する。
論文 参考訳(メタデータ) (2024-07-14T20:22:36Z) - Lightweight Diffusion Models with Distillation-Based Block Neural
Architecture Search [55.41583104734349]
拡散蒸留に基づくブロックワイドニューラルネットワークサーチ(NAS)により拡散モデルの構造的冗長性を自動的に除去することを提案する。
事前訓練を受けた教師がより多い場合、DiffNASを利用して、教師よりもパフォーマンスが良い最小限のアーキテクチャを探索する。
従来のブロックワイズNAS法とは異なり、DiffNASはブロックワイズ局所探索戦略と、関節ダイナミックロスを伴う再訓練戦略を含んでいる。
論文 参考訳(メタデータ) (2023-11-08T12:56:59Z) - Class-Incremental Learning: A Survey [84.30083092434938]
CIL(Class-Incremental Learning)は、学習者が新しいクラスの知識を段階的に取り入れることを可能にする。
CILは、前者の特徴を壊滅的に忘れる傾向にあり、その性能は劇的に低下する。
ベンチマーク画像分類タスクにおける17の手法の厳密で統一的な評価を行い、異なるアルゴリズムの特徴を明らかにする。
論文 参考訳(メタデータ) (2023-02-07T17:59:05Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Understanding Self-supervised Learning with Dual Deep Networks [74.92916579635336]
本稿では,2組の深層ReLUネットワークを用いたコントラスト型自己教師学習(SSL)手法を理解するための新しい枠組みを提案する。
種々の損失関数を持つSimCLRの各SGD更新において、各層の重みは共分散演算子によって更新されることを示す。
共分散演算子の役割と、そのようなプロセスでどのような特徴が学習されるかをさらに研究するために、我々は、階層的潜在木モデル(HLTM)を用いて、データ生成および増大過程をモデル化する。
論文 参考訳(メタデータ) (2020-10-01T17:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。