論文の概要: Vision Transformer with Cross-attention by Temporal Shift for Efficient
Action Recognition
- arxiv url: http://arxiv.org/abs/2204.00452v1
- Date: Fri, 1 Apr 2022 14:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 17:46:53.823491
- Title: Vision Transformer with Cross-attention by Temporal Shift for Efficient
Action Recognition
- Title(参考訳): 時間シフトによる視覚変換器による効果的な行動認識
- Authors: Ryota Hashiguchi, Toru Tamaki
- Abstract要約: 視覚変換器(ViT)の構造に基づく行動認識のための時間的クロスアテンション機構を提案する。
ビデオフレームの各フレームにViTを適用するだけでフレームの特徴をキャプチャできるが、時間的特徴をモデル化することはできない。
提案モデルでは、ViTのMSA計算において、クエリ、キー、バリューをシフトすることで、時間情報をキャプチャする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Multi-head Self/Cross-Attention (MSCA), which introduces a
temporal cross-attention mechanism for action recognition, based on the
structure of the Multi-head Self-Attention (MSA) mechanism of the Vision
Transformer (ViT). Simply applying ViT to each frame of a video frame can
capture frame features, but cannot model temporal features. However, simply
modeling temporal information with CNN or Transfomer is computationally
expensive. TSM that perform feature shifting assume a CNN and cannot take
advantage of the ViT structure. The proposed model captures temporal
information by shifting the Query, Key, and Value in the calculation of MSA of
ViT. This is efficient without additional coinformationmputational effort and
is a suitable structure for extending ViT over temporal. Experiments on
Kineitcs400 show the effectiveness of the proposed method and its superiority
over previous methods.
- Abstract(参考訳): 視覚変換器(ViT)のマルチヘッド自己認識機構(MSA)の構造に基づいて,動作認識のための時間的クロスアテンション機構を導入するマルチヘッド自己認識機構(MSCA)を提案する。
ビデオフレームの各フレームにViTを適用するだけでフレームの特徴をキャプチャできるが、時間的特徴をモデル化することはできない。
しかし、単にcnnやトランスフォマーで時間情報をモデル化するだけでは計算コストがかかる。
機能シフトを行うTSMはCNNを仮定し、ViT構造を利用することができない。
提案モデルは,vitのmsa計算において,クエリ,キー,値のシフトによって時間情報をキャプチャする。
これは余分な造語的努力を伴わずに効率的であり、時相的にViTを拡張するのに適した構造である。
Kineitcs400の実験は,提案手法の有効性と従来手法よりも優れていることを示す。
関連論文リスト
- Adapting Short-Term Transformers for Action Detection in Untrimmed Videos [29.723117583850723]
Vision Transformer (ViT) はビデオ認識において高い可能性を示している。
未編集ビデオにおける時間的行動検出のために、これらの事前訓練された短期的なViTをどのように適応させるかは、まだ不明である。
本稿では、これらのトレーニング済みViTモデルを一貫した長形ビデオトランスとして適応するための新しいメカニズムの設計に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-04T13:51:16Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - Temporally Efficient Vision Transformer for Video Instance Segmentation [40.32376033054237]
ビデオインスタンスセグメンテーション(VIS)のためのTeViT(Temporally Efficient Vision Transformer)を提案する。
TeViTはほぼ畳み込みなしで、トランスフォーマーバックボーンとクエリベースのビデオインスタンスセグメンテーションヘッドを含んでいる。
広く採用されている3つのVISベンチマークでは、TeViTは最先端の結果を取得し、高い推論速度を維持する。
論文 参考訳(メタデータ) (2022-04-18T17:09:20Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Temporal Transformer Networks with Self-Supervision for Action
Recognition [13.00827959393591]
自己監督型時変変器ネットワーク(TTSN)について紹介する。
TTSNは時間変圧器モジュールと時間列セルフスーパービジョンモジュールから構成される。
提案するTTSNは,動作認識のための最先端性能を達成する上で有望である。
論文 参考訳(メタデータ) (2021-12-14T12:53:53Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。