論文の概要: Meta-attention for ViT-backed Continual Learning
- arxiv url: http://arxiv.org/abs/2203.11684v1
- Date: Tue, 22 Mar 2022 12:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 12:37:35.634650
- Title: Meta-attention for ViT-backed Continual Learning
- Title(参考訳): ViT支援型連続学習のためのメタアテンション
- Authors: Mengqi Xue, Haofei Zhang, Jie Song, Mingli Song
- Abstract要約: 視覚変換器(ViT)はコンピュータビジョンの分野を徐々に支配している。
ViTは、CNNベースの連続学習に簡単に適用すれば、深刻なパフォーマンス劣化に悩まされる可能性がある。
学習済みのタスクのパフォーマンスを犠牲にすることなく、トレーニング済みのViTを新しいタスクに適用するためのMeta-Atention(MEAT)を提案する。
- 参考スコア(独自算出の注目度): 35.31816553097367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning is a longstanding research topic due to its crucial role
in tackling continually arriving tasks. Up to now, the study of continual
learning in computer vision is mainly restricted to convolutional neural
networks (CNNs). However, recently there is a tendency that the newly emerging
vision transformers (ViTs) are gradually dominating the field of computer
vision, which leaves CNN-based continual learning lagging behind as they can
suffer from severe performance degradation if straightforwardly applied to
ViTs. In this paper, we study ViT-backed continual learning to strive for
higher performance riding on recent advances of ViTs. Inspired by mask-based
continual learning methods in CNNs, where a mask is learned per task to adapt
the pre-trained ViT to the new task, we propose MEta-ATtention (MEAT), i.e.,
attention to self-attention, to adapt a pre-trained ViT to new tasks without
sacrificing performance on already learned tasks. Unlike prior mask-based
methods like Piggyback, where all parameters are associated with corresponding
masks, MEAT leverages the characteristics of ViTs and only masks a portion of
its parameters. It renders MEAT more efficient and effective with less overhead
and higher accuracy. Extensive experiments demonstrate that MEAT exhibits
significant superiority to its state-of-the-art CNN counterparts, with 4.0~6.0%
absolute boosts in accuracy. Our code has been released at
https://github.com/zju-vipa/MEAT-TIL.
- Abstract(参考訳): 継続的学習は、継続的に到着するタスクに取り組む上で重要な役割を担っているため、長年にわたる研究テーマである。
現在まで、コンピュータビジョンにおける連続学習の研究は主に畳み込みニューラルネットワーク(cnns)に限られている。
しかし、近年、新たに出現したビジョントランスフォーマー(vits)が、コンピュータビジョンの分野を徐々に支配している傾向があり、vitsに直接適用すれば、深刻なパフォーマンス低下に苦しむ可能性があるため、cnnベースの継続的な学習が遅れている。
本稿では,近年のViTの進歩にともなって,ViTをベースとした連続学習を用いて,より高性能な乗馬を目指す。
CNNにおけるマスクベースの連続学習手法に着想を得て、学習済みのViTを新しいタスクに適応させるためにタスク毎のマスクを学習し、学習済みのタスクの性能を犠牲にすることなく、学習済みのViTを新しいタスクに適応させるMeta-Atention(MEAT)を提案する。
全てのパラメータが対応するマスクに関連付けられているPiggybackのような従来のマスクベースの方法とは異なり、MEATはViTの特性を活用し、パラメータの一部だけをマスクする。
MEATはより効率的で効率が良く、オーバーヘッドも少なく、精度も高い。
大規模な実験により、MEATは最先端のCNNに比べて大きな優位性を示し、精度は4.0~6.0%向上した。
私たちのコードはhttps://github.com/zju-vipa/MEAT-TILで公開されています。
関連論文リスト
- Limited Data, Unlimited Potential: A Study on ViTs Augmented by Masked
Autoencoders [32.2455570714414]
ビジョントランスフォーマー(ViT)はコンピュータビジョンにおいてユビキタス化されている。
ViTには誘導バイアスがないため、限られたデータでトレーニングすることは難しくなる。
本稿では,視覚障害者が自己監督タスクと一次タスクの両方のユニークな特徴を活用できるようにする手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T17:59:07Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - When Adversarial Training Meets Vision Transformers: Recipes from
Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。
対人訓練にはプレトレーニングとSGDが必要であることが判明した。
私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文 参考訳(メタデータ) (2022-10-14T05:37:20Z) - Towards Efficient Adversarial Training on Vision Transformers [41.6396577241957]
敵の訓練は、堅牢なCNNを実現するための最も効果的な方法の1つである。
本稿では,効率的な注意指導型対人訓練機構を提案する。
高速な敵のトレーニング時間のわずか65%で、挑戦的なImageNetベンチマークの最先端の結果と一致します。
論文 参考訳(メタデータ) (2022-07-21T14:23:50Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Bootstrapping ViTs: Towards Liberating Vision Transformers from
Pre-training [29.20567759071523]
ビジョントランスフォーマー(ViT)は急速に発展し、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)の支配に挑戦し始めている。
本稿では,上位境界のネットワークアーキテクチャを保ちながら,CNNのインダクティブバイアスをViTに戻す。
CIFAR-10/100 と ImageNet-1k の限られたトレーニングデータによる実験は、有望な結果を示している。
論文 参考訳(メタデータ) (2021-12-07T07:56:50Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。