論文の概要: Parameter-Level Soft-Masking for Continual Learning
- arxiv url: http://arxiv.org/abs/2306.14775v1
- Date: Mon, 26 Jun 2023 15:35:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 12:57:12.228156
- Title: Parameter-Level Soft-Masking for Continual Learning
- Title(参考訳): 連続学習のためのパラメータレベルソフトマスキング
- Authors: Tatsuya Konishi, Mori Kurokawa, Chihiro Ono, Zixuan Ke, Gyuhak Kim,
Bing Liu
- Abstract要約: 従来のタスクに対する各パラメータの重要性に基づいたトレーニングにおいて,ソフトマスクパラメータを更新する手法(SPG)が提案されている。
私たちの知る限り、これは連続学習のためのパラメータレベルでモデルをソフトマスクする最初の作品です。
- 参考スコア(独自算出の注目度): 12.290968171255349
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing research on task incremental learning in continual learning has
primarily focused on preventing catastrophic forgetting (CF). Although several
techniques have achieved learning with no CF, they attain it by letting each
task monopolize a sub-network in a shared network, which seriously limits
knowledge transfer (KT) and causes over-consumption of the network capacity,
i.e., as more tasks are learned, the performance deteriorates. The goal of this
paper is threefold: (1) overcoming CF, (2) encouraging KT, and (3) tackling the
capacity problem. A novel technique (called SPG) is proposed that soft-masks
(partially blocks) parameter updating in training based on the importance of
each parameter to old tasks. Each task still uses the full network, i.e., no
monopoly of any part of the network by any task, which enables maximum KT and
reduction in capacity usage. To our knowledge, this is the first work that
soft-masks a model at the parameter-level for continual learning. Extensive
experiments demonstrate the effectiveness of SPG in achieving all three
objectives. More notably, it attains significant transfer of knowledge not only
among similar tasks (with shared knowledge) but also among dissimilar tasks
(with little shared knowledge) while mitigating CF.
- Abstract(参考訳): 継続学習におけるタスクインクリメンタルラーニングの研究は、主に破滅的忘れ(CF)を防ぐことに焦点を当てている。
CFを使わずに学習できる技術はいくつかあるが、各タスクが共有ネットワーク内のサブネットワークを独占させることで、知識伝達(KT)を著しく制限し、ネットワーク容量の過剰消費、すなわちより多くのタスクが学習されると性能が低下する。
本論文の目的は,1)CFを克服し,(2)KTを奨励し,(3)キャパシティ問題に取り組むことである。
従来のタスクに対する各パラメータの重要性に基づいて,ソフトマスク(一部ブロック)パラメータをトレーニング中に更新する手法が提案されている。
各タスクは依然として全ネットワーク、すなわち任意のタスクによるネットワークの任意の部分の独占は使用せず、最大KTと容量使用量の削減を可能にする。
私たちの知る限り、これは連続学習のパラメータレベルでモデルをソフトマスクする最初の仕事です。
大規模な実験は、SPGが3つの目的を全て達成する効果を実証している。
より注目すべきは、cfを緩和しながら、類似のタスク(共有の知識を含む)だけでなく、類似のタスク(共有の知識を持つ)の間でも、相当な知識の移動を実現していることです。
関連論文リスト
- Order parameters and phase transitions of continual learning in deep neural networks [6.349503549199403]
継続学習(CL)により、動物は事前知識を消去することなく新しいタスクを学習することができる。
ニューラルネットワーク(NN)におけるCLは、破滅的な忘れが原因で困難であり、新しい学習は古いタスクのパフォーマンスを低下させる。
本稿では,ネットワークの入出力マッピングがタスク列を学習する際に特徴付ける,深層広帯域NNにおけるCLの統計力学理論を提案する。
論文 参考訳(メタデータ) (2024-07-14T20:22:36Z) - Investigating the Impact of Weight Sharing Decisions on Knowledge
Transfer in Continual Learning [7.25130576615102]
連続学習(CL)は、ニューラルネットワークのシーケンシャルトレーニングにおいて、カタストロフィックフォーッティング(CF)を避ける方法として注目されている。
本稿では,タスク間のフォワード・ナレッジ・トランスファー(FKT)に対して,異なる共有決定がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2023-11-16T02:06:23Z) - Sub-network Discovery and Soft-masking for Continual Learning of Mixed
Tasks [46.96149283885802]
本稿では,CFおよび/または制限KTを克服する新しいCL法を提案する。
サブネットワークを発見して各タスクの知識を分離することでCFを克服する。
従来の知識を保存し、新しいタスクが過去の知識を活用してKTを達成できるようにするため、ソフトマスキング機構も提案されている。
論文 参考訳(メタデータ) (2023-10-13T23:00:39Z) - Task-Attentive Transformer Architecture for Continual Learning of
Vision-and-Language Tasks Using Knowledge Distillation [18.345183818638475]
連続学習(CL)は、逐次到着するタスク間で知識伝達を可能にすることで、治療の役割を果たす。
バイモーダル・ビジョン・アンド・ランゲージ・タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。
私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多数のタスクにスケーラブルに学習するものです。
論文 参考訳(メタデータ) (2023-03-25T10:16:53Z) - Factorizing Knowledge in Neural Networks [65.57381498391202]
知識伝達タスクKF(Knowledge Factorization)を提案する。
KFは、それをいくつかの要因ネットワークに分解することを目的としており、それぞれが専用のタスクのみを処理し、ソースネットワークから分解されたタスク固有の知識を維持する。
学習した表現と入力の相互情報を最適化してKFを実行するための情報理論的目的であるInfoMax-Bottleneck(IMB)を導入する。
論文 参考訳(メタデータ) (2022-07-04T09:56:49Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Defeating Catastrophic Forgetting via Enhanced Orthogonal Weights
Modification [8.091211518374598]
本稿では,新しい学習課題の重み勾配が,新たな学習課題の入力空間と,学習課題の重み空間とによって連続的に決定されることを示す。
本稿では,拡張OWMによる効率的かつ効果的な連続学習手法であるEOWMを提案する。
論文 参考訳(メタデータ) (2021-11-19T07:40:48Z) - Distilling Knowledge via Knowledge Review [69.15050871776552]
教師と学生のネットワーク間の接続経路のクロスレベル要因を研究し、その大きな重要性を明らかにします。
知識蒸留において初めて, クロスステージ接続経路が提案されている。
最終的に設計されたネストでコンパクトなフレームワークは、無視できるオーバーヘッドを必要とし、さまざまなタスクで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-04-19T04:36:24Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z) - Federated Continual Learning with Weighted Inter-client Transfer [79.93004004545736]
我々は,新しい連合型連続学習フレームワークFederated Weighted Inter-client Transfer(FedWeIT)を提案する。
FedWeITは、ネットワークの重みをグローバルなフェデレーションパラメータとスパースなタスク固有のパラメータに分解し、各クライアントは他のクライアントから選択的な知識を受け取る。
我々はFedWeITを既存のフェデレーション学習法や継続学習法に対して検証し、我々のモデルは通信コストを大幅に削減してそれらを著しく上回っている。
論文 参考訳(メタデータ) (2020-03-06T13:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。