論文の概要: Deformable Video Transformer
- arxiv url: http://arxiv.org/abs/2203.16795v1
- Date: Thu, 31 Mar 2022 04:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:52:12.261354
- Title: Deformable Video Transformer
- Title(参考訳): 変形可能なビデオトランス
- Authors: Jue Wang and Lorenzo Torresani
- Abstract要約: 本稿では,DVT(Deformable Video Transformer)を導入し,ビデオパッチの少数のサブセットを動作情報に基づいて,各クエリロケーションへの参加を予測した。
本モデルでは,計算コストが同じか低い場合に高い精度を達成し,4つのデータセットに対して最先端の計算結果が得られる。
- 参考スコア(独自算出の注目度): 44.71254375663616
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video transformers have recently emerged as an effective alternative to
convolutional networks for action classification. However, most prior video
transformers adopt either global space-time attention or hand-defined
strategies to compare patches within and across frames. These fixed attention
schemes not only have high computational cost but, by comparing patches at
predetermined locations, they neglect the motion dynamics in the video. In this
paper, we introduce the Deformable Video Transformer (DVT), which dynamically
predicts a small subset of video patches to attend for each query location
based on motion information, thus allowing the model to decide where to look in
the video based on correspondences across frames. Crucially, these motion-based
correspondences are obtained at zero-cost from information stored in the
compressed format of the video. Our deformable attention mechanism is optimised
directly with respect to classification performance, thus eliminating the need
for suboptimal hand-design of attention strategies. Experiments on four
large-scale video benchmarks (Kinetics-400, Something-Something-V2,
EPIC-KITCHENS and Diving-48) demonstrate that, compared to existing video
transformers, our model achieves higher accuracy at the same or lower
computational cost, and it attains state-of-the-art results on these four
datasets.
- Abstract(参考訳): ビデオトランスフォーマーは、アクション分類のための畳み込みネットワークの効果的な代替手段として最近登場した。
しかしながら、以前のビデオトランスフォーマーのほとんどは、グローバルな時空の注意またはフレーム内およびフレーム間のパッチを比較する手作業による戦略を採用する。
これらの固定注意スキームは、高い計算コストを持つだけでなく、所定の場所におけるパッチを比較することによって、ビデオ中の動きのダイナミクスを無視する。
本稿では,各問合せ場所に対して映像パッチのごく一部を動的に予測し,フレーム間の対応に基づいて映像の閲覧先を決定するdvt(deformable video transformer)を提案する。
ビデオの圧縮フォーマットに格納された情報から、これらの動きに基づく対応をゼロコストで得ることが重要である。
我々の変形可能な注意機構は分類性能に関して直接最適化され,注意戦略の最適ハンドデザインの必要性が排除される。
4つの大規模ビデオベンチマーク(Kinetics-400, Something-Something-V2, EPIC-KITCHENS, Diving-48)の実験では、既存のビデオトランスフォーマーと比較して、計算コストが一段と低い場合に精度が向上し、これらの4つのデータセットの最先端結果が得られることを示した。
関連論文リスト
- Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文 参考訳(メタデータ) (2022-08-25T17:59:00Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Video Swin Transformer [41.41741134859565]
我々は、ビデオトランスフォーマーにおける局所性の帰納バイアスを提唱する。
提案したビデオアーキテクチャの局所性は、画像領域用に設計されたSwin Transformerを適用することで実現される。
提案手法は,広い範囲の映像認識ベンチマークにおいて,最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-06-24T17:59:46Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - VidTr: Video Transformer Without Convolutions [32.710988574799735]
時間的映像分類のための分離アテンション付きビデオトランスフォーマー(VidTr)を導入する。
VidTrは、スタックされた注意を通して時間情報を集約し、より高い効率でパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-04-23T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。