論文の概要: HyperMask: Adaptive Hypernetwork-based Masks for Continual Learning
- arxiv url: http://arxiv.org/abs/2310.00113v2
- Date: Wed, 11 Oct 2023 08:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 02:37:12.267065
- Title: HyperMask: Adaptive Hypernetwork-based Masks for Continual Learning
- Title(参考訳): hypermask: 継続的学習のための適応型ハイパーネットワークベースのマスク
- Authors: Kamil Ksi\k{a}\.zek, Przemys{\l}aw Spurek
- Abstract要約: 人工ニューラルネットワークは、複数のタスクで逐次訓練されたときに、破滅的な忘れに苦しむ。
最も効果的な方法の1つは、ハイパーネットワークベースのアプローチである。
本稿では,すべてのタスクに対してひとつのネットワークをトレーニングするHyperMaskを提案する。
- 参考スコア(独自算出の注目度): 6.022204282587371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial neural networks suffer from catastrophic forgetting when they are
sequentially trained on multiple tasks. To overcome this problem, there exist
many continual learning strategies. One of the most effective is the
hypernetwork-based approach. The hypernetwork generates the weights of a target
model based on the task's identity. The model's main limitation is that
hypernetwork can produce completely different nests for each task.
Consequently, each task is solved separately. The model does not use
information from the network dedicated to previous tasks and practically
produces new architectures when it learns the subsequent tasks. To solve such a
problem, we use the lottery ticket hypothesis, which postulates the existence
of sparse subnetworks, named winning tickets, that preserve the performance of
a full network. In the paper, we propose a method called HyperMask, which
trains a single network for all tasks. Hypernetwork produces semi-binary masks
to obtain target subnetworks dedicated to new tasks. This solution inherits the
ability of the hypernetwork to adapt to new tasks with minimal forgetting.
Moreover, due to the lottery ticket hypothesis, we can use a single network
with weighted subnets dedicated to each task.
- Abstract(参考訳): ニューラルネットワークは、複数のタスクで順次トレーニングされたとき、壊滅的な忘れに苦しむ。
この問題を解決するために、継続的な学習戦略が数多く存在する。
最も効果的なのはハイパーネットワークベースのアプローチです。
ハイパーネットワークは、タスクのアイデンティティに基づいて、ターゲットモデルの重みを生成する。
モデルの主な制限は、ハイパーネットワークがタスク毎にまったく異なるネストを生成することができることである。
これにより、各タスクは別々に解決される。
このモデルは、以前のタスク専用のネットワークからの情報を使用しず、その後のタスクを学習すると、実質的に新しいアーキテクチャを生成する。
このような問題を解決するために,全ネットワークの性能を保ちながら,当選チケットと命名されたスパースサブネットワークの存在を仮定する宝くじの仮説を用いる。
本稿では,すべてのタスクに対して単一のネットワークを訓練するhypermaskという手法を提案する。
Hypernetworkは、新しいタスク専用のターゲットサブネットを得るために、半バイナリマスクを生成する。
このソリューションは、ほとんど忘れずに新しいタスクに適応できるハイパーネットワークの能力を継承する。
さらに、抽選券仮説により、各タスク専用の重み付きサブネットを持つ1つのネットワークを使用できる。
関連論文リスト
- Magnitude Invariant Parametrizations Improve Hypernetwork Learning [0.0]
Hypernetworksは、別のニューラルネットワークのパラメータを予測する強力なニューラルネットワークである。
トレーニングは通常、非ハイパーネットワークモデルよりもはるかにゆっくりと収束する。
我々は、ハイパーネットワークのトレーニングの課題に寄与する、基本的な未確認の問題を識別する。
我々は、MIP(Magnitude Invariant Parametrizations)と呼ばれる改訂されたハイパーネットワークの定式化を用いて、この問題に対する簡単な解決策を提案する。
論文 参考訳(メタデータ) (2023-04-15T22:18:29Z) - Forget-free Continual Learning with Soft-Winning SubNetworks [67.0373924836107]
本稿では,各タスクに対して適応バイナリ(WSN)と非バイナリサブネット(SoftNet)を逐次学習し,選択する2つの連続学習手法について検討する。
WSNとSoftNetは、各タスクに関連する作業の正規化モデルウェイトとタスク適応非バイナリマスクを共同で学習する。
タスクインクリメンタルラーニング(TIL)では、当選チケット毎に生成されるバイナリマスクを1つのNビットのバイナリディジットマスクにエンコードし、ハフマン符号化を用いてタスク数に対するネットワーク容量のサブ線形増加のために圧縮する。
論文 参考訳(メタデータ) (2023-03-27T07:53:23Z) - Parameter-Efficient Masking Networks [61.43995077575439]
先進的なネットワーク設計は、しばしば多数の繰り返し構造を含む(例: Transformer)。
本研究では,マスクの学習により,一意値に制限された固定ランダムウェイトの代表的ポテンシャルについて検討する。
これはモデル圧縮のための新しいパラダイムをもたらし、モデルサイズを減少させます。
論文 参考訳(メタデータ) (2022-10-13T03:39:03Z) - Continual Learning with Dependency Preserving Hypernetworks [14.102057320661427]
継続学習(CL)問題に対処するための効果的なアプローチは、ターゲットネットワークのタスク依存重みを生成するハイパーネットワークを使用することである。
本稿では,パラメータの効率を保ちながら,依存関係保存型ハイパーネットワークを用いて対象ネットワークの重み付けを生成する手法を提案する。
さらに,RNNベースのハイパーネットワークのための新しい正規化手法とネットワーク成長手法を提案し,継続学習性能をさらに向上させる。
論文 参考訳(メタデータ) (2022-09-16T04:42:21Z) - On the Soft-Subnetwork for Few-shot Class Incremental Learning [67.0373924836107]
本稿では,emphSoft-SubNetworks (SoftNet) と呼ばれる数発のクラスインクリメンタルラーニング(FSCIL)手法を提案する。
私たちの目的はセッションの連続を漸進的に学習することであり、各セッションは、以前に学習したセッションの知識を保持しながら、クラス毎にいくつかのトレーニングインスタンスのみを含む。
我々は、ベンチマークデータセットよりも最先端のベースラインのパフォーマンスを超越して、SoftNetが数発のインクリメンタル学習問題に効果的に取り組むことを示す、総合的な実証検証を提供する。
論文 参考訳(メタデータ) (2022-09-15T04:54:02Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - Learning to Win Lottery Tickets in BERT Transfer via Task-agnostic Mask
Training [55.43088293183165]
近年の研究では、BERTのような事前学習言語モデル(PLM)には、元のPLMと同じような変換学習性能を持つマッチングワークが含まれていることが示されている。
本稿では, BERTworksがこれらの研究で示された以上の可能性を秘めていることを示す。
我々は、サブネットワークの普遍的な転送可能性を維持することを目的として、事前学習タスクのモデル重みよりも二項マスクを訓練する。
論文 参考訳(メタデータ) (2022-04-24T08:42:47Z) - Dual Lottery Ticket Hypothesis [71.95937879869334]
Lottery Ticket hypothesis (LTH)は、スパースネットワークトレーニングを調査し、その能力を維持するための新しい視点を提供する。
本稿では,LTHの当選チケットをトレーニング可能なサブネットワークとして,その性能をベンチマークとして検討する。
本稿では,簡単なスパースネットワークトレーニング戦略であるランダムスパースネットワークトランスフォーメーション(RST)を提案し,DLTHを裏付ける。
論文 参考訳(メタデータ) (2022-03-08T18:06:26Z) - Automatic Sparse Connectivity Learning for Neural Networks [4.875787559251317]
十分に設計されたスパースニューラルネットワークは、FLOPや計算資源を大幅に削減する可能性がある。
本研究では,スパース接続性学習(Sparse Connectivity Learning)という新しい自動プルーニング手法を提案する。
SCLによって訓練された深層学習モデルは、SOTAの人間設計および自動プルーニング手法を、疎性、正確性、FLOPs削減で上回っている。
論文 参考訳(メタデータ) (2022-01-13T15:12:48Z) - Hypernetwork Dismantling via Deep Reinforcement Learning [1.4877837830677472]
ハイパーネットワーク解体問題をノードシーケンス決定問題として定式化する。
深層強化学習型ハイパーネットワーク分解フレームワークを提案する。
5つの実世界のハイパーネットワークの実験結果は,提案フレームワークの有効性を示している。
論文 参考訳(メタデータ) (2021-04-29T13:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。