論文の概要: Space-time Mixing Attention for Video Transformer
- arxiv url: http://arxiv.org/abs/2106.05968v1
- Date: Thu, 10 Jun 2021 17:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:41:21.500250
- Title: Space-time Mixing Attention for Video Transformer
- Title(参考訳): ビデオトランスにおける時空間混合注意
- Authors: Adrian Bulat and Juan-Manuel Perez-Rua and Swathikiran Sudhakaran and
Brais Martinez and Georgios Tzimiropoulos
- Abstract要約: 本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
- 参考スコア(独自算出の注目度): 55.50839896863275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is on video recognition using Transformers. Very recent attempts
in this area have demonstrated promising results in terms of recognition
accuracy, yet they have been also shown to induce, in many cases, significant
computational overheads due to the additional modelling of the temporal
information. In this work, we propose a Video Transformer model the complexity
of which scales linearly with the number of frames in the video sequence and
hence induces \textit{no overhead} compared to an image-based Transformer
model. To achieve this, our model makes two approximations to the full
space-time attention used in Video Transformers: (a) It restricts time
attention to a local temporal window and capitalizes on the Transformer's depth
to obtain full temporal coverage of the video sequence. (b) It uses efficient
space-time mixing to attend \textit{jointly} spatial and temporal locations
without inducing any additional cost on top of a spatial-only attention model.
We also show how to integrate 2 very lightweight mechanisms for global
temporal-only attention which provide additional accuracy improvements at
minimal computational cost. We demonstrate that our model produces very high
recognition accuracy on the most popular video recognition datasets while at
the same time being significantly more efficient than other Video Transformer
models. Code will be made available.
- Abstract(参考訳): 本稿ではトランスフォーマーを用いたビデオ認識について述べる。
この領域での最近の試みは、認識精度の観点から有望な結果を示しているが、多くの場合、時間的情報の付加的モデリングによる重要な計算オーバーヘッドを引き起こすことも示されている。
そこで本研究では,ビデオシーケンス内のフレーム数と線形にスケールする複雑なビデオトランスフォーマーモデルを提案し,画像ベースのトランスフォーマーモデルと比較して,‘textit{no overhead’を誘導する。
これを実現するために,本モデルでは,ビデオトランスフォーマーで使用される全時空間の注意を2つ近似する: (a) 時間的注意を局所的な時間的窓に制限し,トランスフォーマーの深さに重み付けし,ビデオシーケンスの完全な時間的カバレッジを得る。
(b)空間のみの注意モデルの上に余分なコストを発生させることなく、効率的な時空混合を用いて空間的および時間的位置に出席する。
また,計算コストの最小化による精度向上を実現するため,グローバル時間のみの注意のための2つの非常に軽量な機構を統合する方法を示す。
我々のモデルは、最も人気のあるビデオ認識データセットに対して、非常に高い認識精度を提供すると同時に、他のビデオトランスフォーマーモデルよりもはるかに効率的であることを示す。
コードは利用可能になる。
関連論文リスト
- HumMUSS: Human Motion Understanding using State Space Models [6.821961232645209]
本稿では,最近の状態空間モデルの発展にともなう,人間の動作理解構築のための新しいアテンションフリーモデルを提案する。
私たちのモデルはオフラインとリアルタイムの両方のアプリケーションをサポートします。
リアルタイムの逐次予測では、このモデルはトランスフォーマーベースのアプローチよりもメモリ効率が高く、数倍高速である。
論文 参考訳(メタデータ) (2024-04-16T19:59:21Z) - Eventful Transformers: Leveraging Temporal Redundancy in Vision
Transformers [27.029600581635957]
本稿では,時間とともに大きく変化したトークンのみを識別・再処理する手法について述べる。
ビデオオブジェクト検出のための大規模データセット(ImageNet VID)と行動認識(EPIC-Kitchens 100)について評価を行った。
論文 参考訳(メタデータ) (2023-08-25T17:10:12Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - Shifted Chunk Transformer for Spatio-Temporal Representational Learning [24.361059477031162]
我々は、純粋な自己注意ブロックを持つシフトチャンク変換器を構築する。
このトランスフォーマーは、小さなパッチからグローバルなビデオクリップまで、階層的な時間的特徴を学習することができる。
Kinetics, Kinetics-600, UCF101, HMDB51の最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-08-26T04:34:33Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Video Swin Transformer [41.41741134859565]
我々は、ビデオトランスフォーマーにおける局所性の帰納バイアスを提唱する。
提案したビデオアーキテクチャの局所性は、画像領域用に設計されたSwin Transformerを適用することで実現される。
提案手法は,広い範囲の映像認識ベンチマークにおいて,最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-06-24T17:59:46Z) - Decoupled Spatial-Temporal Transformer for Video Inpainting [77.8621673355983]
ビデオは、特定の穴をリアルな外観で埋めることを目指していますが、豊かなディープラーニングアプローチでも依然として難しい作業です。
最近の研究は、将来有望なTransformerアーキテクチャをディープビデオのインペイントに導入し、より良いパフォーマンスを実現している。
ビデオインペインティングを優れた効率で改善するため、DSTT(Decoupled Spatial-Temporal Transformer)を提案します。
論文 参考訳(メタデータ) (2021-04-14T05:47:46Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。