論文の概要: Overcoming Growth-Induced Forgetting in Task-Agnostic Continual Learning
- arxiv url: http://arxiv.org/abs/2408.10566v4
- Date: Fri, 27 Sep 2024 06:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 06:33:42.068017
- Title: Overcoming Growth-Induced Forgetting in Task-Agnostic Continual Learning
- Title(参考訳): タスク非依存型継続的学習における成長誘導型フォーミングの克服
- Authors: Yuqing Zhao, Divya Saxena, Jiannong Cao, Xiaoyun Liu, Changlin Song,
- Abstract要約: 連続学習(CL)では、モデルの成長は新しいデータに対する適応性を高め、より多くのタスクに対する知識保持を改善する。
しかし、不適切なモデルの成長は、特にタスクに依存しないCLにおいて、推論のために成長したモデル全体を用いて、事前学習した知識を著しく劣化させる可能性がある。
本稿では,新しいデータに対する適応性を向上しつつ,GIFtの問題を克服する新しいSparseGrow手法を提案する。
- 参考スコア(独自算出の注目度): 9.91929539637026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In continual learning (CL), model growth enhances adaptability over new data, improving knowledge retention for more tasks. However, improper model growth can lead to severe degradation of previously learned knowledge, an issue we name as growth-induced forgetting (GIFt), especially in task-agnostic CL using entire grown model for inference. Existing works, despite adopting model growth and random initialization for better adaptability, often fail to recognize the presence of GIFt caused by improper model growth. This oversight limits comprehensive control of forgetting and hinders full utilization of model growth. We are the first in CL to identify this issue and conduct an in-depth study on root cause of GIFt, where layer expansion stands out among model growth strategies, widening layers without affecting model functionality. Yet, direct adoption of layer expansion presents challenges. It lacks data-driven control and initialization of expanded parameters to balance adaptability and knowledge retention. This paper presents a novel SparseGrow approach to overcome the issue of GIFt while enhancing adaptability over new data. SparseGrow employs data-driven sparse layer expansion to control efficient parameter usage during growth, reducing GIFt from excessive growth and functionality changes. It also combines sparse growth with on-data initialization at training late-stage to create partially 0-valued expansions that fit learned distribution, enhancing retention and adaptability. To further minimize forgetting, freezing is applied by calculating the sparse mask, allowing data-driven preservation of important parameters. Through experiments across datasets with various settings, cases, and task numbers, we demonstrate the necessity of layer expansion and showcase the effectiveness of SparseGrow in overcoming GIFt, highlighting its adaptability and knowledge retention for incremental tasks.
- Abstract(参考訳): 連続学習(CL)では、モデルの成長は新しいデータに対する適応性を高め、より多くのタスクに対する知識保持を改善する。
しかし、不適切なモデルの成長は、成長によって引き起こされる忘れ(GIFt)と呼ばれる、未学習の知識を著しく劣化させる可能性がある。
既存の研究は、モデル成長と適応性の向上のためにランダム初期化を採用するが、不適切なモデル成長によって引き起こされるGIFtの存在を認識できないことが多い。
この監視は、忘れることの包括的な制御を制限し、モデル成長の完全な利用を妨げる。
我々は、この問題を最初に特定し、GIFtの根本原因について詳細な研究を行い、モデル成長戦略の中で層拡大が際立っており、モデル機能に影響を与えない層を広げている。
しかし、レイヤー拡張の直接的な採用は課題を呈している。
データ駆動制御と、適応性と知識保持のバランスをとるために拡張されたパラメータの初期化が欠けている。
本稿では,新しいデータに対する適応性を向上しつつ,GIFtの問題を克服する新しいSparseGrow手法を提案する。
SparseGrowはデータ駆動のスパース層拡張を使用して、成長中の効率的なパラメータ使用量を制御し、過剰な成長と機能変更からGIFtを削減する。
また、トレーニング後期におけるスパース成長とオンデータ初期化を組み合わせて、学習された分散に適合し、保持性と適応性を高める、部分的に0値の拡張を生成します。
さらに忘れるのを最小にするため、スパースマスクを計算し、重要なパラメータのデータ駆動保存を可能にする。
さまざまな設定,ケース,タスク番号を持つデータセットを対象とした実験を通じて,レイヤ拡張の必要性を実証し,GIFtを克服する上でのSparseGrowの有効性を示し,インクリメンタルタスクへの適応性と知識保持を強調した。
関連論文リスト
- SF(DA)$^2$: Source-free Domain Adaptation Through the Lens of Data Augmentation [35.071201249725426]
データ拡張のレンズを通してのソースフリーなドメイン適応(SF(DA)$2$)を提案する。
提案手法は,2次元画像と3次元点クラウドデータセット,高度に不均衡なデータセットを含む,SFDAシナリオにおける優れた適応性能を示す。
論文 参考訳(メタデータ) (2024-03-16T07:05:47Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Efficient Expansion and Gradient Based Task Inference for Replay Free
Incremental Learning [5.760774528950479]
最近の拡張ベースモデルはタスクインクリメンタルラーニング(TIL)に有望な結果を示している
クラスインクリメンタルラーニング(CIL)では、タスクIDの予測が重要な課題である。
擬似ラベルを用いたエントロピー重み付きデータ拡張とモデル勾配を利用する頑健なタスク予測手法を提案する。
論文 参考訳(メタデータ) (2023-12-02T17:28:52Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Masked Structural Growth for 2x Faster Language Model Pre-training [18.276784451675603]
我々は、小さなトランスフォーマー構造から大きな構造へと徐々に成長することで、事前学習のスピードアップに重点を置いている。
成長スケジュールの観点では、個々の次元がスケジュールの効率に与える影響は、既存の作業によって過小評価される。
本稿では, (i) 可能なすべての次元を含む成長スケジュールと, (ii) 厳密な機能保存型成長演算子を含む, マスケッド構造成長(MSG)を提案する。
論文 参考訳(メタデータ) (2023-05-04T14:28:39Z) - A Guide for Practical Use of ADMG Causal Data Augmentation [0.0]
これらの課題に対処するためのソリューションとして、因果データ拡張戦略が指摘されている。
異なる設定を考慮したADMG因果拡大法を実験的に検討した。
論文 参考訳(メタデータ) (2023-04-03T09:31:13Z) - AdaXpert: Adapting Neural Architecture for Growing Data [63.30393509048505]
実世界のアプリケーションでは、データボリュームとクラス数が動的に増加する可能性があるため、データが増大することが多い。
データボリュームの増加やクラスの数を考えると、期待できるパフォーマンスを得るためには、ニューラルネットワークのキャパシティを瞬時に調整する必要がある。
既存のメソッドは、データの増大する性質を無視したり、特定のデータセットの最適なアーキテクチャを独立して検索しようとする。
論文 参考訳(メタデータ) (2021-07-01T07:22:05Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Learnable Expansion-and-Compression Network for Few-shot
Class-Incremental Learning [87.94561000910707]
破滅的忘れとモデルオーバーフィッティングの問題を解決するための学習可能な拡張・圧縮ネットワーク(LEC-Net)を提案する。
LEC-Netは機能の表現能力を拡大し、モデル正規化の観点から古いネットワークの特徴漂流を緩和します。
CUB/CIFAR-100データセットの実験では、LEC-Netがベースラインを57%改善し、最先端の56%を上回ります。
論文 参考訳(メタデータ) (2021-04-06T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。