論文の概要: CabViT: Cross Attention among Blocks for Vision Transformer
- arxiv url: http://arxiv.org/abs/2211.07198v1
- Date: Mon, 14 Nov 2022 08:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 18:32:18.375011
- Title: CabViT: Cross Attention among Blocks for Vision Transformer
- Title(参考訳): CabViT:Vision Transformerのブロック間のクロスアテンション
- Authors: Haokui Zhang, Wenze Hu, Xiaoyu Wang
- Abstract要約: 本稿では,注目パターンの強化による高性能トランスフォーマーアーキテクチャの設計を提案する。
具体的には、変換器のマルチヘッドアテンションへの追加入力として、前回のブロックからのトークンを使用するViT(CabViT)のブロック間でのクロスアテンションを提案する。
提案したCabViTに基づいて,モデルサイズ,計算コスト,精度の最良のトレードオフを実現する一連のCabViTモデルを設計する。
- 参考スコア(独自算出の注目度): 29.09883780571206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the vision transformer (ViT) has achieved impressive performance in
image classification, an increasing number of researchers pay their attentions
to designing more efficient vision transformer models. A general research line
is reducing computational cost of self attention modules by adopting sparse
attention or using local attention windows. In contrast, we propose to design
high performance transformer based architectures by densifying the attention
pattern. Specifically, we propose cross attention among blocks of ViT (CabViT),
which uses tokens from previous blocks in the same stage as extra input to the
multi-head attention of transformers. The proposed CabViT enhances the
interactions of tokens across blocks with potentially different semantics, and
encourages more information flows to the lower levels, which together improves
model performance and model convergence with limited extra cost. Based on the
proposed CabViT, we design a series of CabViT models which achieve the best
trade-off between model size, computational cost and accuracy. For instance
without the need of knowledge distillation to strength the training, CabViT
achieves 83.0% top-1 accuracy on Imagenet with only 16.3 million parameters and
about 3.9G FLOPs, saving almost half parameters and 13% computational cost
while gaining 0.9% higher accuracy compared with ConvNext, use 52% of
parameters but gaining 0.6% accuracy compared with distilled EfficientFormer
- Abstract(参考訳): 視覚トランスフォーマー (vit) は画像分類において素晴らしい性能を発揮したため、より効率的な視覚トランスフォーマーの設計に注目する研究者が増えている。
一般研究ラインでは,注意の疎化や局所注意窓の利用により,自己注意モジュールの計算コストを削減している。
これとは対照的に,注目パターンの強化による高性能トランスフォーマーアーキテクチャの設計を提案する。
具体的には、変換器のマルチヘッドアテンションへの追加入力として、前回のブロックからのトークンを使用するViT(CabViT)のブロック間でのクロスアテンションを提案する。
提案したCabViTは、潜在的に異なるセマンティクスを持つブロック間のトークン間の相互作用を強化し、より低いレベルへの情報フローを促進する。
提案したCabViTに基づいて,モデルサイズ,計算コスト,精度の最良のトレードオフを実現する一連のCabViTモデルを設計する。
例えば、トレーニングの強化に知識蒸留を必要とせず、カビットは16.3百万のパラメータと約3.9gのフロップを持つimagenetで83.0%のtop-1精度を達成し、ほぼ半分のパラメータと13%の計算コストを節約し、convnextよりも0.1%高い精度を得られる一方で、52%のパラメータを使用するが、蒸留効率向上機に比べて0.6%の精度を得られる。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion [0.0]
コンボリューションとトランスフォーマーを組み合わせた,軽量なハイブリッドネットワークを提案する。
畳み込み経路から取得した局所応答とMFCAモジュールから取得したグローバル応答とを融合する。
実験により、我々の変種は、大規模データや低データレギュレーションでスクラッチからトレーニングしたとしても、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-07-09T08:47:13Z) - Affine-based Deformable Attention and Selective Fusion for Semi-dense Matching [30.272791354494373]
モデル断面変形に対するアフィン系局所的注意を導入する。
また、クロスアテンションからローカルメッセージとグローバルメッセージをマージするための選択的融合も提示する。
論文 参考訳(メタデータ) (2024-05-22T17:57:37Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient
Semantic Segmentation [0.0]
CNNベースのU-Netは、高解像度の医療画像とリモートセンシングにおいて大きな進歩を遂げている。
この2つの成功は、両方の長所をマージするきっかけとなり、U-Netベースの視覚変換器デコーダが誕生しました。
本稿では,U-Net構造上に構築され,効率的なセマンティックセグメンテーションのために設計された新しいトランスフォーマデコーダU-MixFormerを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:19:42Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。
チャネルミキサーや機能ミキシングブロック(FFNか)の研究は、はるかに少ない。
密度の高い接続は、より大きな膨張比をサポートする対角線ブロック構造に置き換えることができることを示す。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。