論文の概要: Video Swin Transformer
- arxiv url: http://arxiv.org/abs/2106.13230v1
- Date: Thu, 24 Jun 2021 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:58:27.532184
- Title: Video Swin Transformer
- Title(参考訳): Video Swin Transformer
- Authors: Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, Han
Hu
- Abstract要約: 我々は、ビデオトランスフォーマーにおける局所性の帰納バイアスを提唱する。
提案したビデオアーキテクチャの局所性は、画像領域用に設計されたSwin Transformerを適用することで実現される。
提案手法は,広い範囲の映像認識ベンチマークにおいて,最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 41.41741134859565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The vision community is witnessing a modeling shift from CNNs to
Transformers, where pure Transformer architectures have attained top accuracy
on the major video recognition benchmarks. These video models are all built on
Transformer layers that globally connect patches across the spatial and
temporal dimensions. In this paper, we instead advocate an inductive bias of
locality in video Transformers, which leads to a better speed-accuracy
trade-off compared to previous approaches which compute self-attention globally
even with spatial-temporal factorization. The locality of the proposed video
architecture is realized by adapting the Swin Transformer designed for the
image domain, while continuing to leverage the power of pre-trained image
models. Our approach achieves state-of-the-art accuracy on a broad range of
video recognition benchmarks, including on action recognition (84.9 top-1
accuracy on Kinetics-400 and 86.1 top-1 accuracy on Kinetics-600 with ~20x less
pre-training data and ~3x smaller model size) and temporal modeling (69.6 top-1
accuracy on Something-Something v2). The code and models will be made publicly
available at https://github.com/SwinTransformer/Video-Swin-Transformer.
- Abstract(参考訳): 視覚コミュニティは、cnnからトランスフォーマーへのモデリングシフトを目撃しており、純粋なトランスフォーマーアーキテクチャが主要なビデオ認識ベンチマークで最高精度を達成した。
これらのビデオモデルは、すべてTransformer層上に構築され、空間的および時間的次元のパッチをグローバルに接続する。
本稿では,ビデオトランスフォーマの局所性に対する帰納的バイアスを提唱し,空間的時間的因子分解においてもグローバルに自己アテンションを計算する従来のアプローチと比較して,速度・精度のトレードオフが向上することを示す。
提案する映像アーキテクチャの局所性は,事前学習した画像モデルのパワーを引き続き活用しながら,画像領域用に設計されたスウィントランスを適応させることにより実現される。
提案手法は,動作認識(Kinetics-400の84.9トップ-1精度,Kinetics-600の86.1トップ-1精度)や時間モデリング(Something v2の69.6トップ-1精度)など,幅広いビデオ認識ベンチマークにおける最先端の精度を実現する。
コードとモデルはhttps://github.com/SwinTransformer/Video-Swin-Transformerで公開される。
関連論文リスト
- Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文 参考訳(メタデータ) (2022-08-25T17:59:00Z) - Deformable Video Transformer [44.71254375663616]
本稿では,DVT(Deformable Video Transformer)を導入し,ビデオパッチの少数のサブセットを動作情報に基づいて,各クエリロケーションへの参加を予測した。
本モデルでは,計算コストが同じか低い場合に高い精度を達成し,4つのデータセットに対して最先端の計算結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T04:52:27Z) - Co-training Transformer with Videos and Images Improves Action
Recognition [49.160505782802886]
アクション認識の学習において、モデルは通常、ImageNetのようなオブジェクト認識イメージで事前訓練され、後にビデオによるターゲットアクション認識で微調整される。
このアプローチは、特に最近のトランスフォーマーベースのビデオアーキテクチャにおいて、優れた経験的性能を実現している。
ビデオトランスフォーマーは、多様なビデオデータセットとラベル空間のジョイントトレーニングの恩恵を受けるかを示す。
論文 参考訳(メタデータ) (2021-12-14T05:41:39Z) - Improved Multiscale Vision Transformers for Classification and Detection [80.64111139883694]
画像と映像の分類とオブジェクト検出のための統合アーキテクチャとして,MViT(Multiscale Vision Transformer)について検討した。
分割された相対的な位置埋め込みと残留プール接続を組み込んだMViTの改良版を提案する。
我々は、このアーキテクチャを5つのサイズでインスタンス化し、ImageNet分類、COCO検出およびKineeticsビデオ認識のために評価する。
論文 参考訳(メタデータ) (2021-12-02T18:59:57Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。