論文の概要: KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning
- arxiv url: http://arxiv.org/abs/2009.05668v1
- Date: Fri, 11 Sep 2020 21:48:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 20:40:33.803411
- Title: KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning
- Title(参考訳): ksm:kernel-wise soft mask learningによる高速多重タスク適応
- Authors: Li Yang, Zhezhi He, Junshan Zhang, Deliang Fan
- Abstract要約: Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。
最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。
我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 49.77278179376902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks (DNN) could forget the knowledge about earlier tasks
when learning new tasks, and this is known as \textit{catastrophic forgetting}.
While recent continual learning methods are capable of alleviating the
catastrophic problem on toy-sized datasets, some issues still remain to be
tackled when applying them in real-world problems. Recently, the fast
mask-based learning method (e.g. piggyback \cite{mallya2018piggyback}) is
proposed to address these issues by learning only a binary element-wise mask in
a fast manner, while keeping the backbone model fixed. However, the binary mask
has limited modeling capacity for new tasks. A more recent work
\cite{hung2019compacting} proposes a compress-grow-based method (CPG) to
achieve better accuracy for new tasks by partially training backbone model, but
with order-higher training cost, which makes it infeasible to be deployed into
popular state-of-the-art edge-/mobile-learning. The primary goal of this work
is to simultaneously achieve fast and high-accuracy multi task adaption in
continual learning setting. Thus motivated, we propose a new training method
called \textit{kernel-wise Soft Mask} (KSM), which learns a kernel-wise hybrid
binary and real-value soft mask for each task, while using the same backbone
model. Such a soft mask can be viewed as a superposition of a binary mask and a
properly scaled real-value tensor, which offers a richer representation
capability without low-level kernel support to meet the objective of low
hardware overhead. We validate KSM on multiple benchmark datasets against
recent state-of-the-art methods (e.g. Piggyback, Packnet, CPG, etc.), which
shows good improvement in both accuracy and training cost.
- Abstract(参考訳): Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これは「textit{catastrophic forgetting}」として知られている。
最近の連続学習法はおもちゃサイズのデータセットの壊滅的な問題を緩和する能力があるが、現実の問題にそれを適用する際に対処すべき課題が残っている。
近年,背骨モデルを修正しつつ,二元的マスクのみを高速に学習することにより,これらの問題に対処するための高速マスク学習法(piggyback \cite{mallya2018piggyback})が提案されている。
しかし、バイナリマスクは新しいタスクのモデリング能力に制限がある。
より最近の研究 \cite{hung2019compacting} では、バックボーンモデルを部分的にトレーニングすることで、新しいタスクの精度を向上させるための圧縮グローベースの方法 (CPG) が提案されている。
本研究の目的は,連続学習環境において高速かつ高精度なマルチタスク適応を実現することである。
そこで我々は,kernel-wise soft mask (ksm) と呼ばれる新しい学習法を提案し,同一のバックボーンモデルを用いて,各タスクに対するkernel-wise hybrid binary と real-value soft mask を学習する。
このようなソフトマスクは、バイナリマスクと適切にスケールされた実値テンソルの重ね合わせと見なすことができ、低レベルのカーネルサポートなしでよりリッチな表現能力を提供し、低ハードウェアオーバーヘッドの目的を満たす。
本研究では,最新の最先端手法(pigggyback, packnet, cpgなど)に対して,複数のベンチマークデータセット上でksmを検証する。
関連論文リスト
- Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。
我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文 参考訳(メタデータ) (2023-08-31T09:13:30Z) - Parameter-Efficient Masking Networks [61.43995077575439]
先進的なネットワーク設計は、しばしば多数の繰り返し構造を含む(例: Transformer)。
本研究では,マスクの学習により,一意値に制限された固定ランダムウェイトの代表的ポテンシャルについて検討する。
これはモデル圧縮のための新しいパラダイムをもたらし、モデルサイズを減少させます。
論文 参考訳(メタデータ) (2022-10-13T03:39:03Z) - ImpressLearn: Continual Learning via Combined Task Impressions [0.0]
本研究は、破滅的な忘れを苦しめることなく、複数のタスクでディープニューラルネットワークを逐次訓練する新しい手法を提案する。
ランダムなバックボーンネットワーク上で少数のタスク固有のマスクの線形結合を学習するだけで、以前に学習したタスクの精度を維持したり、新しいタスクの精度を高めることができることを示す。
論文 参考訳(メタデータ) (2022-10-05T02:28:25Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Ternary Feature Masks: zero-forgetting for task-incremental learning [68.34518408920661]
本稿では,タスク認識体制の継続的な学習を忘れずにアプローチを提案する。
第三のマスクを使用することで、モデルを新しいタスクにアップグレードしたり、以前のタスクからの知識を再利用したりできます。
本手法は,重みに基づく手法と比較して,メモリオーバーヘッドを低減しつつ,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-01-23T18:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。