論文の概要: Spatiotemporal Self-attention Modeling with Temporal Patch Shift for
Action Recognition
- arxiv url: http://arxiv.org/abs/2207.13259v1
- Date: Wed, 27 Jul 2022 02:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 12:52:06.366018
- Title: Spatiotemporal Self-attention Modeling with Temporal Patch Shift for
Action Recognition
- Title(参考訳): 時間的パッチシフトを用いた時空間自己注意モデルによる行動認識
- Authors: Wangmeng Xiang, Chao Li, Biao Wang, Xihan Wei, Xian-Sheng Hua, Lei
Zhang
- Abstract要約: 映像に基づく行動認識のための変換器における3次元自己認識を効率的に行うための時間的パッチシフト(TPS)手法を提案する。
その結果,2次元自己注意とほぼ同じ複雑さとコストで3次元自己注意メモリを計算できることがわかった。
- 参考スコア(独自算出の注目度): 34.98846882868107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based methods have recently achieved great advancement on 2D
image-based vision tasks. For 3D video-based tasks such as action recognition,
however, directly applying spatiotemporal transformers on video data will bring
heavy computation and memory burdens due to the largely increased number of
patches and the quadratic complexity of self-attention computation. How to
efficiently and effectively model the 3D self-attention of video data has been
a great challenge for transformers. In this paper, we propose a Temporal Patch
Shift (TPS) method for efficient 3D self-attention modeling in transformers for
video-based action recognition. TPS shifts part of patches with a specific
mosaic pattern in the temporal dimension, thus converting a vanilla spatial
self-attention operation to a spatiotemporal one with little additional cost.
As a result, we can compute 3D self-attention using nearly the same computation
and memory cost as 2D self-attention. TPS is a plug-and-play module and can be
inserted into existing 2D transformer models to enhance spatiotemporal feature
learning. The proposed method achieves competitive performance with
state-of-the-arts on Something-something V1 & V2, Diving-48, and Kinetics400
while being much more efficient on computation and memory cost. The source code
of TPS can be found at https://github.com/MartinXM/TPS.
- Abstract(参考訳): トランスフォーマーに基づく手法は近年,2次元画像に基づく視覚タスクにおいて大きな進歩を遂げている。
しかし、アクション認識のような3Dビデオベースのタスクでは、ビデオデータに直接時空間変換器を適用すると、パッチの数が大きく増加し、自己注意計算の2次複雑さにより、大量の計算とメモリ負荷が発生する。
ビデオデータの3D自己認識を効率的に効果的にモデル化する方法は、トランスフォーマーにとって大きな課題である。
本稿では,ビデオベース動作認識のためのトランスフォーマにおける効率的な3次元自己付着モデリングのための時間的パッチシフト(tps)手法を提案する。
TPSは、特定のモザイクパターンのパッチの一部を時間次元にシフトさせ、バニラ空間の自己注意操作を、追加コストの少ない時空間のパッチに変換する。
その結果,2次元自己着脱とほぼ同じ計算とメモリコストで3次元自己着脱を計算できる。
TPSはプラグアンドプレイモジュールであり、時空間の特徴学習を強化するために既存の2Dトランスフォーマーモデルに挿入することができる。
提案手法は,Some-some-something V1 & V2, Diving-48, Kinetics400 の最先端技術との競合性能を実現し,計算とメモリコストをより効率的にする。
TPSのソースコードはhttps://github.com/MartinXM/TPSにある。
関連論文リスト
- Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - SpATr: MoCap 3D Human Action Recognition based on Spiral Auto-encoder and Transformer Network [1.4732811715354455]
SpATr(Spiral Auto-Encoder and Transformer Network)と呼ばれる3次元動作認識のための新しいアプローチを提案する。
スパイラル畳み込みに基づく軽量オートエンコーダを用いて,各3次元メッシュから空間幾何学的特徴を抽出する。
提案手法は,Babel,MoVi,BMLrubの3つの顕著な3次元行動データセットを用いて評価した。
論文 参考訳(メタデータ) (2023-06-30T11:49:00Z) - VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting
Transformers [28.586258731448687]
時間的にスパースな2Dポーズシーケンスを操作できるTransformerベースのポーズアップリフト方式を提案する。
本稿では,Transformerブロック内の時間的アップサンプリングにマスク付きトークンモデリングをどのように利用できるかを示す。
我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-10-12T12:00:56Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - VidTr: Video Transformer Without Convolutions [32.710988574799735]
時間的映像分類のための分離アテンション付きビデオトランスフォーマー(VidTr)を導入する。
VidTrは、スタックされた注意を通して時間情報を集約し、より高い効率でパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-04-23T17:59:01Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。