論文の概要: VidTr: Video Transformer Without Convolutions
- arxiv url: http://arxiv.org/abs/2104.11746v1
- Date: Fri, 23 Apr 2021 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 13:44:48.928039
- Title: VidTr: Video Transformer Without Convolutions
- Title(参考訳): VidTr: コンボリューションのないビデオトランスフォーマー
- Authors: Xinyu Li, Yanyi Zhang, Chunhui Liu, Bing Shuai, Yi Zhu, Biagio
Brattoli, Hao Chen, Ivan Marsic, Joseph Tighe
- Abstract要約: 時間的映像分類のための分離アテンション付きビデオトランスフォーマー(VidTr)を導入する。
VidTrは、スタックされた注意を通して時間情報を集約し、より高い効率でパフォーマンスを向上させることができる。
- 参考スコア(独自算出の注目度): 32.710988574799735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Video Transformer (VidTr) with separable-attention for video
classification. Comparing with commonly used 3D networks, VidTr is able to
aggregate spatio-temporal information via stacked attentions and provide better
performance with higher efficiency. We first introduce the vanilla video
transformer and show that transformer module is able to perform spatio-temporal
modeling from raw pixels, but with heavy memory usage. We then present VidTr
which reduces the memory cost by 3.3$\times$ while keeping the same
performance. To further compact the model, we propose the standard deviation
based topK pooling attention, which reduces the computation by dropping
non-informative features. VidTr achieves state-of-the-art performance on five
commonly used dataset with lower computational requirement, showing both the
efficiency and effectiveness of our design. Finally, error analysis and
visualization show that VidTr is especially good at predicting actions that
require long-term temporal reasoning. The code and pre-trained weights will be
released.
- Abstract(参考訳): ビデオ分類に分離可能なビデオ変換器(VidTr)を導入する。
一般的な3dネットワークと比較すると、vidtrは重ねられた注意を通して時空間情報を集約し、より高い効率でより良いパフォーマンスを提供することができる。
まず、バニラビデオトランスを導入し、トランスモジュールが生画素から時空間モデリングを行うことができるが、メモリ使用量が多いことを示す。
次に、同じパフォーマンスを維持しながらメモリコストを3.3$\times$削減するvidtrを提案する。
このモデルをさらにコンパクトにするために, 標準偏差に基づくtopkプーリングアテンションを提案し, 非インフォーマティブな特徴を落として計算量を削減した。
VidTrは、より少ない計算要求の5つの一般的なデータセット上で最先端のパフォーマンスを実現し、設計の効率性と有効性を示す。
最後に、エラー解析と可視化は、VidTrが長期の時間的推論を必要とするアクションを予測するのに特に優れていることを示している。
コードとトレーニング済みのウェイトがリリースされる予定だ。
関連論文リスト
- A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling [125.95527079960725]
トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
論文 参考訳(メタデータ) (2022-08-25T17:59:00Z) - Spatiotemporal Self-attention Modeling with Temporal Patch Shift for
Action Recognition [34.98846882868107]
映像に基づく行動認識のための変換器における3次元自己認識を効率的に行うための時間的パッチシフト(TPS)手法を提案する。
その結果,2次元自己注意とほぼ同じ複雑さとコストで3次元自己注意メモリを計算できることがわかった。
論文 参考訳(メタデータ) (2022-07-27T02:47:07Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Deformable Video Transformer [44.71254375663616]
本稿では,DVT(Deformable Video Transformer)を導入し,ビデオパッチの少数のサブセットを動作情報に基づいて,各クエリロケーションへの参加を予測した。
本モデルでは,計算コストが同じか低い場合に高い精度を達成し,4つのデータセットに対して最先端の計算結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T04:52:27Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。