論文の概要: Refiner: Refining Self-attention for Vision Transformers
- arxiv url: http://arxiv.org/abs/2106.03714v1
- Date: Mon, 7 Jun 2021 15:24:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-06-08 17:59:18.186909
- Title: Refiner: Refining Self-attention for Vision Transformers
- Title(参考訳): 精錬機:視覚トランスフォーマー用セルフアテンションの改良
- Authors: Daquan Zhou, Yujun Shi, Bingyi Kang, Weihao Yu, Zihang Jiang, Yuan Li,
Xiaojie Jin, Qibin Hou, Jiashi Feng
- Abstract要約: 視覚変換器(ViT)は、CNNと比較して画像分類タスクにおいて、競合する精度を示す。
本稿では,ViTの自己注意マップを直接洗練するために,ファインダと呼ばれる概念的にシンプルなスキームを導入する。
refinerはアテンションマップの局所的なパターンを拡大するために畳み込みを適用します。これは、ローカルなアテンション特徴を学習可能なカーネルで局所的に集約した上で、グローバルなアテンションで集約した分散ローカルアテンション特徴と等価であることを示す。
- 参考スコア(独自算出の注目度): 85.80887884154427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have shown competitive accuracy in image
classification tasks compared with CNNs. Yet, they generally require much more
data for model pre-training. Most of recent works thus are dedicated to
designing more complex architectures or training methods to address the
data-efficiency issue of ViTs. However, few of them explore improving the
self-attention mechanism, a key factor distinguishing ViTs from CNNs. Different
from existing works, we introduce a conceptually simple scheme, called refiner,
to directly refine the self-attention maps of ViTs. Specifically, refiner
explores attention expansion that projects the multi-head attention maps to a
higher-dimensional space to promote their diversity. Further, refiner applies
convolutions to augment local patterns of the attention maps, which we show is
equivalent to a distributed local attention features are aggregated locally
with learnable kernels and then globally aggregated with self-attention.
Extensive experiments demonstrate that refiner works surprisingly well.
Significantly, it enables ViTs to achieve 86% top-1 classification accuracy on
ImageNet with only 81M parameters.
- Abstract(参考訳): 視覚変換器(ViT)は,CNNと比較して画像分類タスクにおいて競合精度を示す。
しかし、モデル事前トレーニングには、一般的にもっと多くのデータが必要です。
したがって、最近の研究の多くは、より複雑なアーキテクチャや、ViTのデータ効率の問題に対処する訓練方法の設計に重点を置いている。
しかし、VTとCNNを区別する重要な要因である自己認識機構の改善を検討するものはほとんどない。
既存の作品と異なり,vitsの自己アテンションマップを直接洗練するために,refinerと呼ばれる概念的に単純なスキームを導入する。
具体的には、refinerはマルチヘッドアテンションマップを高次元空間に投影して多様性を促進するアテンション拡大を探求する。
さらに,注目マップの局所的パターンを拡大するためにコンボリューションを適用し,学習可能なカーネルをローカルに集約し,自己注意でグローバルに集約する分散局所的注意特徴と等価であることを示す。
大規模な実験は、精錬機が驚くほどうまく機能することを示した。
81mのパラメータしか持たないimagenetでは、vitsが86%のtop-1分類精度を達成できる。
関連論文リスト
- Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - Enhancing Performance of Vision Transformers on Small Datasets through
Local Inductive Bias Incorporation [13.056764072568749]
ビジョントランスフォーマー(ViT)は、大規模なデータセットでは顕著なパフォーマンスを達成するが、小さなデータセットでは畳み込みニューラルネットワーク(CNN)よりもパフォーマンスが悪くなる傾向がある。
本稿では、パッチレベルのローカル情報を抽出し、ViTの自己保持ブロックで使用される埋め込みに組み込む、ローカルInFormation Enhancer (LIFE) と呼ばれるモジュールを提案する。
提案するモジュールはメモリと効率が良く, 分類や蒸留トークンなどの補助トークンを処理できるほど柔軟である。
論文 参考訳(メタデータ) (2023-05-15T11:23:18Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Vision Transformers provably learn spatial structure [34.61885883486938]
ビジョントランスフォーマー(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)と同等または優れたパフォーマンスを達成した。
しかし、最近の研究によると、トレーニング損失を最小限に抑える一方で、ViTは特に空間的局所化パターンを学習している。
論文 参考訳(メタデータ) (2022-10-13T19:53:56Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition [26.090419694326823]
地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
論文 参考訳(メタデータ) (2021-07-17T06:22:20Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。