論文の概要: Efficient Attention-free Video Shift Transformers
- arxiv url: http://arxiv.org/abs/2208.11108v1
- Date: Tue, 23 Aug 2022 17:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 12:42:15.460615
- Title: Efficient Attention-free Video Shift Transformers
- Title(参考訳): アテンションフリービデオシフト変圧器
- Authors: Adrian Bulat and Brais Martinez and Georgios Tzimiropoulos
- Abstract要約: 本稿では,効率的な映像認識の問題に取り組む。
ビデオトランスは、最近、効率(トップ1精度対FLOP)のスペクトルを支配している。
我々はビデオ領域における定式化を拡張してビデオアフィンシフト変換器を構築する。
- 参考スコア(独自算出の注目度): 56.87581500474093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles the problem of efficient video recognition. In this area,
video transformers have recently dominated the efficiency (top-1 accuracy vs
FLOPs) spectrum. At the same time, there have been some attempts in the image
domain which challenge the necessity of the self-attention operation within the
transformer architecture, advocating the use of simpler approaches for token
mixing. However, there are no results yet for the case of video recognition,
where the self-attention operator has a significantly higher impact (compared
to the case of images) on efficiency. To address this gap, in this paper, we
make the following contributions: (a) we construct a highly efficient \&
accurate attention-free block based on the shift operator, coined Affine-Shift
block, specifically designed to approximate as closely as possible the
operations in the MHSA block of a Transformer layer. Based on our Affine-Shift
block, we construct our Affine-Shift Transformer and show that it already
outperforms all existing shift/MLP--based architectures for ImageNet
classification. (b) We extend our formulation in the video domain to construct
Video Affine-Shift Transformer (VAST), the very first purely attention-free
shift-based video transformer. (c) We show that VAST significantly outperforms
recent state-of-the-art transformers on the most popular action recognition
benchmarks for the case of models with low computational and memory footprint.
Code will be made available.
- Abstract(参考訳): 本稿では,効率的な映像認識の問題に取り組む。
この領域では、最近ビデオトランスフォーマーが効率 (top-1 accuracy vs flops) スペクトルを支配している。
同時に、画像領域において、トランスフォーマーアーキテクチャにおける自己注意操作の必要性に挑戦する試みがあり、トークンミキシングにおけるより単純なアプローチの使用を提唱している。
しかし, 映像認識においては, 自己追尾操作が効率にかなり大きな影響(画像の場合と比較して)を持つような結果は得られていない。
このギャップに対処するため,本稿では,次のような貢献を行う。
(a)変圧器層のmhsaブロックの操作を可能な限り近似するように特別に設計されたシフト演算子(アフィンシフトブロック)に基づいて、高度に効率的で正確な注意を払わないブロックを構築する。
Affine-Shiftブロックに基づいて、Affine-Shift Transformerを構築し、ImageNet分類のための既存のシフト/MLPベースのアーキテクチャをすでに上回っていることを示す。
b)ビデオ領域における定式化を拡張し,ビデオアフィンシフト変換器(VAST)を構築した。
(c)計算量やメモリフットプリントの少ないモデルの場合、最も人気のあるアクション認識ベンチマークでは、最近の最先端トランスフォーマーを大幅に上回っている。
コードは利用可能になる。
関連論文リスト
- Hierarchical Separable Video Transformer for Snapshot Compressive Imaging [46.23615648331571]
HiSViT(Hierarchical Separable Video Transformer)は、時間的アグリゲーションのない再構成アーキテクチャである。
HiSViTは、CSS-MSAとGSM-FFN(Gated Self-Modulated Feed-Forward Network)の複数グループによって構築されている。
我々のメソッドは、同等または少ないパラメータと複雑さで、以前のメソッドを$!>!0.5$で上回ります。
論文 参考訳(メタデータ) (2024-07-16T17:35:59Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - Token Shift Transformer for Video Classification [34.05954523287077]
トランスフォーマーは1次元信号と2次元信号の理解において顕著な成功を収める。
エンコーダは自然にペアワイズ・セルフアテンションのような計算集約的な操作を含む。
本稿では,各トランスエンコーダ内の時間関係をモデル化するためのToken Shift Module(TokShift)を提案する。
論文 参考訳(メタデータ) (2021-08-05T08:04:54Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。