論文の概要: Exclusive Supermask Subnetwork Training for Continual Learning
- arxiv url: http://arxiv.org/abs/2210.10209v1
- Date: Tue, 18 Oct 2022 23:27:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-20 12:23:54.778428
- Title: Exclusive Supermask Subnetwork Training for Continual Learning
- Title(参考訳): 連続学習のための排他的スーパーマスクサブネットワーク訓練
- Authors: Prateek Yadav, Mohit Bansal
- Abstract要約: 本稿では,排他的および非重複的なサブネットワークウェイトトレーニングを行う ExSSNeT (Exclusive Supermask SubNEtwork Training) を提案する。
ExSSNeTはテキスト分類と視覚タスクの両方においてSupSupや他の強力な手法よりも優れ、忘れることの防止を図っている。
- 参考スコア(独自算出の注目度): 95.5186263127864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual Learning (CL) methods mainly focus on avoiding catastrophic
forgetting and learning representations that are transferable to new tasks.
Recently, Wortsman et al. (2020) proposed a CL method, SupSup, which uses a
randomly initialized, fixed base network (model) and finds a supermask for each
new task that selectively keeps or removes each weight to produce a subnetwork.
They prevent forgetting as the network weights are not being updated. Although
there is no forgetting, the performance of the supermask is sub-optimal because
fixed weights restrict its representational power. Furthermore, there is no
accumulation or transfer of knowledge inside the model when new tasks are
learned. Hence, we propose ExSSNeT (Exclusive Supermask SubNEtwork Training),
which performs exclusive and non-overlapping subnetwork weight training. This
avoids conflicting updates to the shared weights by subsequent tasks to improve
performance while still preventing forgetting. Furthermore, we propose a novel
KNN-based Knowledge Transfer (KKT) module that dynamically initializes a new
task's mask based on previous tasks for improving knowledge transfer. We
demonstrate that ExSSNeT outperforms SupSup and other strong previous methods
on both text classification and vision tasks while preventing forgetting.
Moreover, ExSSNeT is particularly advantageous for sparse masks that activate
2-10% of the model parameters, resulting in an average improvement of 8.3% over
SupSup. Additionally, ExSSNeT scales to a large number of tasks (100), and our
KKT module helps to learn new tasks faster while improving overall performance.
Our code is available at https://github.com/prateeky2806/exessnet
- Abstract(参考訳): 継続学習(CL)手法は主に、新しいタスクに転送可能な破滅的な忘れと学習表現を避けることに焦点を当てている。
最近、wortsman et al. (2020) はランダムに初期化された固定されたベースネットワーク(モデル)を使い、新しいタスクごとにスーパーマスクを見つけ、各重みを選択的に保持または削除してサブネットワークを生成するclメソッド supsup を提案した。
ネットワークの重みが更新されないため、忘れることを防ぐ。
忘れることはないが、固定重みが表現力を制限するため、スーパーマスクの性能は準最適である。
さらに、新しいタスクが学習された場合、モデル内に知識の蓄積や転送は行われない。
そこで我々はExSSNeT(Exclusive Supermask SubNEtwork Training)を提案する。
これにより、後続のタスクによる共有重みへの相反する更新が回避され、パフォーマンスが向上し、忘れてしまっている。
さらに,新しいタスクマスクを動的に初期化するKNNベースの知識伝達(KKT)モジュールを提案する。
ExSSNeTはテキスト分類と視覚タスクの両方においてSupSupや他の強力な手法よりも優れ、忘れることを防ぐ。
さらに、ExSSNeTはモデルパラメータの2-10%を活性化するスパースマスクに対して特に有利であり、SupSupよりも平均8.3%改善した。
さらに、ExSSNeTは、多数のタスク(100)にスケールし、我々のKKTモジュールは、全体的なパフォーマンスを改善しながら、新しいタスクをより早く学習するのに役立つ。
私たちのコードはhttps://github.com/prateeky2806/exessnetで利用可能です。
関連論文リスト
- MixtureGrowth: Growing Neural Networks by Recombining Learned Parameters [19.358670728803336]
ほとんどのディープニューラルネットワークは、固定されたネットワークアーキテクチャの下でトレーニングされており、アーキテクチャの変更時に再トレーニングを必要とする。
これを回避するために、時間とともにランダムな重みを加えて小さなネットワークから成長させ、徐々にターゲットネットワークサイズを達成できる。
このナイーブなアプローチは、成長するプロセスに多くのノイズをもたらすため、実際には不足しています。
論文 参考訳(メタデータ) (2023-11-07T11:37:08Z) - IF2Net: Innately Forgetting-Free Networks for Continual Learning [49.57495829364827]
継続的な学習は、以前に学んだ知識に干渉することなく、新しい概念を漸進的に吸収することができる。
ニューラルネットワークの特性に触発され,本研究は,IF2Net(Innately Forgetting-free Network)の設計方法について検討した。
IF2Netは、1つのネットワークがテスト時にタスクのIDを告げることなく、本質的に無制限のマッピングルールを学習することを可能にする。
論文 参考訳(メタデータ) (2023-06-18T05:26:49Z) - Forget-free Continual Learning with Soft-Winning SubNetworks [67.0373924836107]
本稿では,各タスクに対して適応バイナリ(WSN)と非バイナリサブネット(SoftNet)を逐次学習し,選択する2つの連続学習手法について検討する。
WSNとSoftNetは、各タスクに関連する作業の正規化モデルウェイトとタスク適応非バイナリマスクを共同で学習する。
タスクインクリメンタルラーニング(TIL)では、当選チケット毎に生成されるバイナリマスクを1つのNビットのバイナリディジットマスクにエンコードし、ハフマン符号化を用いてタスク数に対するネットワーク容量のサブ線形増加のために圧縮する。
論文 参考訳(メタデータ) (2023-03-27T07:53:23Z) - Continual Prune-and-Select: Class-incremental learning with specialized
subnetworks [66.4795381419701]
CP&S(Continuous-Prune-and-Select)は、ImageNet-1000から10タスクを逐次学習できる。
これは、クラス増分学習における第一級の結果である。
論文 参考訳(メタデータ) (2022-08-09T10:49:40Z) - Incremental Task Learning with Incremental Rank Updates [20.725181015069435]
低ランク因数分解に基づく新しい漸進的タスク学習フレームワークを提案する。
提案手法は,現在の最先端手法よりも,精度と忘れやすさの点で優れていることを示す。
論文 参考訳(メタデータ) (2022-07-19T05:21:14Z) - Defeating Catastrophic Forgetting via Enhanced Orthogonal Weights
Modification [8.091211518374598]
本稿では,新しい学習課題の重み勾配が,新たな学習課題の入力空間と,学習課題の重み空間とによって連続的に決定されることを示す。
本稿では,拡張OWMによる効率的かつ効果的な連続学習手法であるEOWMを提案する。
論文 参考訳(メタデータ) (2021-11-19T07:40:48Z) - KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning [49.77278179376902]
Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。
最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。
我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T21:48:39Z) - Supermasks in Superposition [70.5780643117055]
本稿では,スーパーマスク・イン・スーパーポジション(SupSup)モデルを提案する。
提案手法はランダムに固定されたベースネットワークを用い,各タスクに対して,優れた性能を実現するサブネットワーク(スーパーマスク)を求める。
実際には、2500のタスクの中でも、1つの勾配ステップが正しいマスクを特定するのに十分であることがわかった。
論文 参考訳(メタデータ) (2020-06-26T03:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。