論文の概要: Supermasks in Superposition
- arxiv url: http://arxiv.org/abs/2006.14769v3
- Date: Thu, 22 Oct 2020 00:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 20:36:42.260226
- Title: Supermasks in Superposition
- Title(参考訳): 重ね合わせにおけるスーパーマスク
- Authors: Mitchell Wortsman, Vivek Ramanujan, Rosanne Liu, Aniruddha Kembhavi,
Mohammad Rastegari, Jason Yosinski, Ali Farhadi
- Abstract要約: 本稿では,スーパーマスク・イン・スーパーポジション(SupSup)モデルを提案する。
提案手法はランダムに固定されたベースネットワークを用い,各タスクに対して,優れた性能を実現するサブネットワーク(スーパーマスク)を求める。
実際には、2500のタスクの中でも、1つの勾配ステップが正しいマスクを特定するのに十分であることがわかった。
- 参考スコア(独自算出の注目度): 70.5780643117055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Supermasks in Superposition (SupSup) model, capable of
sequentially learning thousands of tasks without catastrophic forgetting. Our
approach uses a randomly initialized, fixed base network and for each task
finds a subnetwork (supermask) that achieves good performance. If task identity
is given at test time, the correct subnetwork can be retrieved with minimal
memory usage. If not provided, SupSup can infer the task using gradient-based
optimization to find a linear superposition of learned supermasks which
minimizes the output entropy. In practice we find that a single gradient step
is often sufficient to identify the correct mask, even among 2500 tasks. We
also showcase two promising extensions. First, SupSup models can be trained
entirely without task identity information, as they may detect when they are
uncertain about new data and allocate an additional supermask for the new
training distribution. Finally the entire, growing set of supermasks can be
stored in a constant-sized reservoir by implicitly storing them as attractors
in a fixed-sized Hopfield network.
- Abstract(参考訳): 我々はスーパーマスク・イン・スーパーポジション(superposition,supsup)モデルを提案する。
我々のアプローチはランダムに初期化され固定されたベースネットワークを使用し、各タスクは優れた性能を達成するサブネットワーク(スーパーマスク)を見つける。
タスクのアイデンティティがテスト時に与えられる場合、正しいサブネットワークは最小限のメモリ使用量で取得できる。
供給されない場合、SupSupは勾配に基づく最適化を用いてタスクを推測し、出力エントロピーを最小化する学習スーパーマスクの線形重ね合わせを見つける。
実際には、2500のタスクの中でさえ、単一の勾配ステップが正しいマスクを特定するのに十分であることが多い。
有望な拡張も2つ紹介します。
まず、supsupモデルはタスクid情報なしで完全にトレーニングすることが可能であり、新しいデータについて不確実性があるときに検出し、新しいトレーニングディストリビューションのための追加のスーパーマスクを割り当てることができる。
最後に、成長するスーパーマスクの集合は、固定サイズのホップフィールドネットワークのアトラクターとして暗黙的に保存することで、一定サイズの貯水池に格納することができる。
関連論文リスト
- Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Exclusive Supermask Subnetwork Training for Continual Learning [95.5186263127864]
継続的な学習(CL)手法は、忘れることを避けながら、時間とともに知識を蓄積することに焦点を当てる。
本稿では,排他的および非重複的なサブネットワークウェイトトレーニングを行う ExSSNeT (Exclusive Supermask SubNEtwork Training) を提案する。
我々は,exSSNeT が従来の NLP と Vision の両領域において,忘れの防止を図りながら,従来手法よりも優れていたことを実証した。
論文 参考訳(メタデータ) (2022-10-18T23:27:07Z) - ImpressLearn: Continual Learning via Combined Task Impressions [0.0]
本研究は、破滅的な忘れを苦しめることなく、複数のタスクでディープニューラルネットワークを逐次訓練する新しい手法を提案する。
ランダムなバックボーンネットワーク上で少数のタスク固有のマスクの線形結合を学習するだけで、以前に学習したタスクの精度を維持したり、新しいタスクの精度を高めることができることを示す。
論文 参考訳(メタデータ) (2022-10-05T02:28:25Z) - KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning [49.77278179376902]
Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。
最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。
我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T21:48:39Z) - Ternary Feature Masks: zero-forgetting for task-incremental learning [68.34518408920661]
本稿では,タスク認識体制の継続的な学習を忘れずにアプローチを提案する。
第三のマスクを使用することで、モデルを新しいタスクにアップグレードしたり、以前のタスクからの知識を再利用したりできます。
本手法は,重みに基づく手法と比較して,メモリオーバーヘッドを低減しつつ,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-01-23T18:08:37Z) - BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation [103.74690082121079]
本研究では,インスタンスレベルの情報とセマンティックな情報と,低レベルの微細な粒度を効果的に組み合わせることで,マスク予測の改善を実現する。
私たちの主な貢献は、トップダウンとボトムアップの両方のインスタンスセグメンテーションアプローチからインスピレーションを得たブレンダーモジュールです。
BlendMaskは、非常に少ないチャネルで、ピクセルあたりの高密度な位置感受性インスタンス機能を効果的に予測し、単一の畳み込み層で各インスタンスの注意マップを学習することができる。
論文 参考訳(メタデータ) (2020-01-02T03:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。