論文の概要: Fcaformer: Forward Cross Attention in Hybrid Vision Transformer
- arxiv url: http://arxiv.org/abs/2211.07198v2
- Date: Mon, 20 Mar 2023 03:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 02:18:39.382734
- Title: Fcaformer: Forward Cross Attention in Hybrid Vision Transformer
- Title(参考訳): Fcaformer:ハイブリッドビジョントランスにおける前方交差注意
- Authors: Haokui Zhang, Wenze Hu, Xiaoyu Wang
- Abstract要約: ハイブリッド・ビジョン・トランス(FcaFormer)のための前方クロスアテンションを提案する。
私たちのFcaFormerは1630万のパラメータと約36億のMACでImagenetの83.1%のトップ-1の精度を実現しています。
これにより、ほぼ半分のパラメータといくつかの計算コストを節約し、蒸留されたEfficientFormerよりも0.7%高い精度を達成できる。
- 参考スコア(独自算出の注目度): 29.09883780571206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, one main research line in designing a more efficient vision
transformer is reducing the computational cost of self attention modules by
adopting sparse attention or using local attention windows. In contrast, we
propose a different approach that aims to improve the performance of
transformer-based architectures by densifying the attention pattern.
Specifically, we proposed forward cross attention for hybrid vision transformer
(FcaFormer), where tokens from previous blocks in the same stage are secondary
used. To achieve this, the FcaFormer leverages two innovative components:
learnable scale factors (LSFs) and a token merge and enhancement module (TME).
The LSFs enable efficient processing of cross tokens, while the TME generates
representative cross tokens. By integrating these components, the proposed
FcaFormer enhances the interactions of tokens across blocks with potentially
different semantics, and encourages more information flows to the lower levels.
Based on the forward cross attention (Fca), we have designed a series of
FcaFormer models that achieve the best trade-off between model size,
computational cost, memory cost, and accuracy. For example, without the need
for knowledge distillation to strengthen training, our FcaFormer achieves 83.1%
top-1 accuracy on Imagenet with only 16.3 million parameters and about 3.6
billion MACs. This saves almost half of the parameters and a few computational
costs while achieving 0.7% higher accuracy compared to distilled
EfficientFormer.
- Abstract(参考訳): 現在、より効率的な視覚トランスフォーマーの設計における1つの研究ラインは、わずかな注意を採用するか、あるいは局所注意窓を使用することで、自己注意モジュールの計算コストを削減することである。
対照的に、注意パターンを密度化することでトランスフォーマーアーキテクチャの性能を向上させるための異なるアプローチを提案する。
具体的には,同一ステージの先行ブロックからのトークンが二次的に使用されるハイブリッドビジョントランスフォーマ(fcaformer)の前方横断注意を提案した。
これを実現するためにFcaFormerは,学習可能なスケールファクタ(LSF)とトークンマージと拡張モジュール(TME)という,革新的な2つのコンポーネントを活用している。
LSFはクロストークンの効率的な処理を可能にし、TMEは代表的クロストークンを生成する。
これらのコンポーネントを統合することで、提案されたfcaformerは、潜在的に異なるセマンティクスを持つブロック間のトークンのインタラクションを強化し、より低いレベルへの情報フローを促進する。
フォワードクロス・アテンション(fca)に基づいて,モデルサイズ,計算コスト,メモリコスト,精度の最適なトレードオフを実現するfcaフォーマーモデルを設計した。
例えば、トレーニングを強化するための知識蒸留を必要とせず、FcaFormerは1630万のパラメータと約360億のMACを持つImagenetで83.1%のトップ-1の精度を達成した。
これにより、ほぼ半分のパラメータといくつかの計算コストを節約し、蒸留されたEfficientFormerよりも0.7%高い精度を達成する。
関連論文リスト
- U-MixFormer: UNet-like Transformer with Mix-Attention for Efficient
Semantic Segmentation [0.0]
CNNベースのU-Netは、高解像度の医療画像とリモートセンシングにおいて大きな進歩を遂げている。
この2つの成功は、両方の長所をマージするきっかけとなり、U-Netベースの視覚変換器デコーダが誕生しました。
本稿では,U-Net構造上に構築され,効率的なセマンティックセグメンテーションのために設計された新しいトランスフォーマデコーダU-MixFormerを提案する。
論文 参考訳(メタデータ) (2023-12-11T10:19:42Z) - SCHEME: Scalable Channer Mixer for Vision Transformers [59.12372477493569]
視覚変換器は多くの視覚タスクにおける印象的な性能のために大きな注目を集めている。
特徴混合が高密度接続に取って代わり,これをブロック対角構造で確認できるかどうかを検討した。
画像分類、オブジェクト検出、セマンティックセグメンテーション(セグメンテーション)の実験は、ViTのバックボーンが異なるが、確実に精度が向上することを示した。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose
Estimation [77.68599742038455]
本稿では,Hourglass Tokenizer (HoT) と呼ばれる,効率的なトランスフォーマーに基づく3次元ポーズ推定のためのプラグアンドプレイプルーニング・リカバリフレームワークを提案する。
私たちのHoTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了し、中間トランスフォーマーブロックでいくつかのポーズトークンが生成される。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。