論文の概要: Preserving Locality in Vision Transformers for Class Incremental
Learning
- arxiv url: http://arxiv.org/abs/2304.06971v1
- Date: Fri, 14 Apr 2023 07:42:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 14:24:35.618798
- Title: Preserving Locality in Vision Transformers for Class Incremental
Learning
- Title(参考訳): 授業増分学習のための視覚変換器の局所性保持
- Authors: Bowen Zheng, Da-Wei Zhou, Han-Jia Ye, De-Chuan Zhan
- Abstract要約: ViTを漸進的に訓練すると、注目層は徐々に局所的な特徴に集中できなくなる。
ローカル機能の重要性を強調するために、ローカル性保存アテンション層を考案する。
改良されたモデルは、CIFAR100とImageNet100で一貫してパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 54.696808348218426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning new classes without forgetting is crucial for real-world
applications for a classification model. Vision Transformers (ViT) recently
achieve remarkable performance in Class Incremental Learning (CIL). Previous
works mainly focus on block design and model expansion for ViTs. However, in
this paper, we find that when the ViT is incrementally trained, the attention
layers gradually lose concentration on local features. We call this interesting
phenomenon as \emph{Locality Degradation} in ViTs for CIL. Since the low-level
local information is crucial to the transferability of the representation, it
is beneficial to preserve the locality in attention layers. In this paper, we
encourage the model to preserve more local information as the training
procedure goes on and devise a Locality-Preserved Attention (LPA) layer to
emphasize the importance of local features. Specifically, we incorporate the
local information directly into the vanilla attention and control the initial
gradients of the vanilla attention by weighting it with a small initial value.
Extensive experiments show that the representations facilitated by LPA capture
more low-level general information which is easier to transfer to follow-up
tasks. The improved model gets consistently better performance on CIFAR100 and
ImageNet100.
- Abstract(参考訳): 新しいクラスを忘れることなく学ぶことは、分類モデルのための現実世界のアプリケーションにとって不可欠である。
vision transformers(vit)は最近、クラスインクリメンタル学習(cil)において驚くべきパフォーマンスを達成している。
これまでの作業は主にブロック設計とViTのモデル拡張に焦点を当てていた。
しかし,本論文では,ViTが漸進的に訓練されると,注目層が局所的な特徴に徐々に集中することがわかった。
この興味深い現象を、CIL の ViT における 'emph{Locality Degradation} と呼ぶ。
低レベルの局所情報は表現の転送性に不可欠であるため、注意層の局所性を保つことが有用である。
本稿では,学習手順が進むにつれて,より局所的な情報を保存することを奨励し,局所的特徴の重要性を強調するために,局所性保存注意層(LPA)を考案する。
具体的には,局所情報をバニラアテンションに直接組み込んで,バニラアテンションの初期勾配を小さな初期値で重み付けすることにより制御する。
広範な実験により、lpaによって促進された表現は、フォローアップタスクへの転送が容易なより低レベルの一般的な情報をキャプチャする。
改良されたモデルは、CIFAR100とImageNet100で一貫してパフォーマンスが向上する。
関連論文リスト
- On the Surprising Effectiveness of Attention Transfer for Vision Transformers [118.83572030360843]
従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。
予備学習で学んだ特徴や表現は必須ではない。
論文 参考訳(メタデータ) (2024-11-14T18:59:40Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - GTA: Guided Transfer of Spatial Attention from Object-Centric
Representations [3.187381965457262]
空間的注意の誘導伝達 (GTA) と呼ばれる, 新規かつ簡易な ViT 正規化手法を提案する。
実験結果から,提案したGTAは,トレーニングデータが少ない場合,特に5つのベンチマークデータセットの精度を一貫して向上することが示された。
論文 参考訳(メタデータ) (2024-01-05T06:24:41Z) - Rethinking Local Perception in Lightweight Vision Transformer [63.65115590184169]
本稿では,コンテキスト認識型局所拡張を利用した軽量な視覚変換器であるCloFormerを紹介する。
CloFormer氏は、バニラ畳み込み演算子でよく使用されるグローバル共有ウェイトと、注目されているトークン固有のコンテキスト認識ウェイトとの関係について検討している。
提案したAttnConvでは、共有ウェイトを使用してローカル情報を集約し、ローカル機能を強化するために慎重に設計されたコンテキスト対応ウェイトをデプロイする。
論文 参考訳(メタデータ) (2023-03-31T05:25:32Z) - Boosting Crowd Counting via Multifaceted Attention [109.89185492364386]
大規模なバリエーションは、しばしば群衆画像の中に存在する。
CNNの固定サイズ畳み込みカーネルも、最近の視覚変換器の固定サイズアテンションも、このような変動には対処できない。
局所空間関係符号化におけるトランスフォーマーモデルを改善するための多面的注意ネットワーク(MAN)を提案する。
論文 参考訳(メタデータ) (2022-03-05T01:36:43Z) - Refiner: Refining Self-attention for Vision Transformers [85.80887884154427]
視覚変換器(ViT)は、CNNと比較して画像分類タスクにおいて、競合する精度を示す。
本稿では,ViTの自己注意マップを直接洗練するために,ファインダと呼ばれる概念的にシンプルなスキームを導入する。
refinerはアテンションマップの局所的なパターンを拡大するために畳み込みを適用します。これは、ローカルなアテンション特徴を学習可能なカーネルで局所的に集約した上で、グローバルなアテンションで集約した分散ローカルアテンション特徴と等価であることを示す。
論文 参考訳(メタデータ) (2021-06-07T15:24:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。