論文の概要: Video Transformer Network
- arxiv url: http://arxiv.org/abs/2102.00719v1
- Date: Mon, 1 Feb 2021 09:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:28:38.361065
- Title: Video Transformer Network
- Title(参考訳): ビデオトランスフォーマネットワーク
- Authors: Daniel Neimark, Omri Bar, Maya Zohar, Dotan Asselmann
- Abstract要約: 本稿では,ビデオ認識のためのトランスフォーマーベースのフレームワークを提案する。
近年の視覚変換器の発展に触発されて、3D ConvNetに依存するビデオアクション認識の標準的アプローチを廃止する。
われわれのアプローチは汎用的で、任意の2次元空間ネットワーク上に構築されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents VTN, a transformer-based framework for video recognition.
Inspired by recent developments in vision transformers, we ditch the standard
approach in video action recognition that relies on 3D ConvNets and introduce a
method that classifies actions by attending to the entire video sequence
information. Our approach is generic and builds on top of any given 2D spatial
network. In terms of wall runtime, it trains $16.1\times$ faster and runs
$5.1\times$ faster during inference while maintaining competitive accuracy
compared to other state-of-the-art methods. It enables whole video analysis,
via a single end-to-end pass, while requiring $1.5\times$ fewer GFLOPs. We
report competitive results on Kinetics-400 and present an ablation study of VTN
properties and the trade-off between accuracy and inference speed. We hope our
approach will serve as a new baseline and start a fresh line of research in the
video recognition domain. Code and models will be available soon.
- Abstract(参考訳): 本稿では,ビデオ認識のためのトランスフォーマーベースのフレームワークであるVTNを提案する。
近年の視覚変換器の発展に触発されて,3D ConvNet に依存した映像行動認識の標準手法を廃止し,映像シーケンス情報全体への参加による行動分類手法を導入する。
われわれのアプローチは汎用的で、任意の2次元空間ネットワーク上に構築されている。
ウォールランタイムの面では、16.1\times$高速にトレーニングし、推論中に5.1\times$高速で実行し、他の最先端のメソッドと比較して競合精度を維持している。
1回のエンドツーエンドパスでビデオ全体を解析できるが、gflopsは1.5\times$より少ない。
我々は、Kinetics-400の競合結果を報告し、VTN特性のアブレーション研究と精度と推論速度のトレードオフを提示する。
私たちのアプローチが新しいベースラインとなり、ビデオ認識領域における新しい研究ラインを開始することを願っています。
コードとモデルは近く提供される。
関連論文リスト
- FlashVideo: A Framework for Swift Inference in Text-to-Video Generation [9.665089218030086]
本稿では,高速テキスト・ツー・ビデオ生成に適した新しいフレームワークであるFlashVideoを紹介する。
FlashVideoは推論の時間的複雑さを$mathcalO(L2)$から$mathcalO(L)$に減らし、推論速度を大幅に加速する。
包括的な実験により、FlashVideoは従来の自己回帰型トランスモデルよりも$times9.17$改善され、推論速度はBERTベースのトランスモデルと同じ桁であることが示された。
論文 参考訳(メタデータ) (2023-12-30T00:06:28Z) - Is a Video worth $n\times n$ Images? A Highly Efficient Approach to
Transformer-based Video Question Answering [14.659023742381777]
従来のトランスフォーマーベースのビデオ質問応答 (Video QA) は、1つ以上の画像エンコーダを通してフレームを独立に符号化し、その後フレームとクエスチョンの間のインタラクションを行う。
既存の視覚言語による事前学習モデルに基づいて,ビデオQAに高効率なアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-16T02:12:57Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - Learning Tracking Representations via Dual-Branch Fully Transformer
Networks [82.21771581817937]
追従のためのトランスフォーマーのみをベースとした,シームズ型デュアルブランチネットワークを提案する。
注目ウィンドウ内の他のパッチとのマッチング結果に基づいて,各パッチの特徴ベクトルを抽出する。
この手法は、最高の性能の方法として、より良い結果または同等の結果を得る。
論文 参考訳(メタデータ) (2021-12-05T13:44:33Z) - Video Relation Detection via Tracklet based Visual Transformer [12.31184296559801]
近年,ビデオ視覚関係検出 (VidVRD) がコミュニティに注目されている。
我々は,最先端のビデオオブジェクトのトラックレット検出パイプラインMEGAとDeepSORTを適用して,トラックレットの提案を生成する。
そして、プリカット操作をせずに、トラックレットベースでVidVRDを実行する。
論文 参考訳(メタデータ) (2021-08-19T13:13:23Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。