論文の概要: CabViT: Cross Attention among Blocks for Vision Transformer
- arxiv url: http://arxiv.org/abs/2211.07198v1
- Date: Mon, 14 Nov 2022 08:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 18:32:18.375011
- Title: CabViT: Cross Attention among Blocks for Vision Transformer
- Title(参考訳): CabViT:Vision Transformerのブロック間のクロスアテンション
- Authors: Haokui Zhang, Wenze Hu, Xiaoyu Wang
- Abstract要約: 本稿では,注目パターンの強化による高性能トランスフォーマーアーキテクチャの設計を提案する。
具体的には、変換器のマルチヘッドアテンションへの追加入力として、前回のブロックからのトークンを使用するViT(CabViT)のブロック間でのクロスアテンションを提案する。
提案したCabViTに基づいて,モデルサイズ,計算コスト,精度の最良のトレードオフを実現する一連のCabViTモデルを設計する。
- 参考スコア(独自算出の注目度): 29.09883780571206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the vision transformer (ViT) has achieved impressive performance in
image classification, an increasing number of researchers pay their attentions
to designing more efficient vision transformer models. A general research line
is reducing computational cost of self attention modules by adopting sparse
attention or using local attention windows. In contrast, we propose to design
high performance transformer based architectures by densifying the attention
pattern. Specifically, we propose cross attention among blocks of ViT (CabViT),
which uses tokens from previous blocks in the same stage as extra input to the
multi-head attention of transformers. The proposed CabViT enhances the
interactions of tokens across blocks with potentially different semantics, and
encourages more information flows to the lower levels, which together improves
model performance and model convergence with limited extra cost. Based on the
proposed CabViT, we design a series of CabViT models which achieve the best
trade-off between model size, computational cost and accuracy. For instance
without the need of knowledge distillation to strength the training, CabViT
achieves 83.0% top-1 accuracy on Imagenet with only 16.3 million parameters and
about 3.9G FLOPs, saving almost half parameters and 13% computational cost
while gaining 0.9% higher accuracy compared with ConvNext, use 52% of
parameters but gaining 0.6% accuracy compared with distilled EfficientFormer
- Abstract(参考訳): 視覚トランスフォーマー (vit) は画像分類において素晴らしい性能を発揮したため、より効率的な視覚トランスフォーマーの設計に注目する研究者が増えている。
一般研究ラインでは,注意の疎化や局所注意窓の利用により,自己注意モジュールの計算コストを削減している。
これとは対照的に,注目パターンの強化による高性能トランスフォーマーアーキテクチャの設計を提案する。
具体的には、変換器のマルチヘッドアテンションへの追加入力として、前回のブロックからのトークンを使用するViT(CabViT)のブロック間でのクロスアテンションを提案する。
提案したCabViTは、潜在的に異なるセマンティクスを持つブロック間のトークン間の相互作用を強化し、より低いレベルへの情報フローを促進する。
提案したCabViTに基づいて,モデルサイズ,計算コスト,精度の最良のトレードオフを実現する一連のCabViTモデルを設計する。
例えば、トレーニングの強化に知識蒸留を必要とせず、カビットは16.3百万のパラメータと約3.9gのフロップを持つimagenetで83.0%のtop-1精度を達成し、ほぼ半分のパラメータと13%の計算コストを節約し、convnextよりも0.1%高い精度を得られる一方で、52%のパラメータを使用するが、蒸留効率向上機に比べて0.6%の精度を得られる。
関連論文リスト
- U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient
Semantic Segmentation [0.0]
CNNベースのU-Netは、高解像度の医療画像とリモートセンシングにおいて大きな進歩を遂げている。
この2つの成功は、両方の長所をマージするきっかけとなり、U-Netベースの視覚変換器デコーダが誕生しました。
本稿では,U-Net構造上に構築され,効率的なセマンティックセグメンテーションのために設計された新しいトランスフォーマデコーダU-MixFormerを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:19:42Z) - SCHEME: Scalable Channer Mixer for Vision Transformers [59.12372477493569]
視覚変換器は多くの視覚タスクにおける印象的な性能のために大きな注目を集めている。
特徴混合が高密度接続に取って代わり,これをブロック対角構造で確認できるかどうかを検討した。
画像分類、オブジェクト検出、セマンティックセグメンテーション(セグメンテーション)の実験は、ViTのバックボーンが異なるが、確実に精度が向上することを示した。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose
Estimation [77.68599742038455]
本稿では,Hourglass Tokenizer (HoT) と呼ばれる,効率的なトランスフォーマーに基づく3次元ポーズ推定のためのプラグアンドプレイプルーニング・リカバリフレームワークを提案する。
私たちのHoTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了し、中間トランスフォーマーブロックでいくつかのポーズトークンが生成される。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。