論文の概要: MVFNet: Multi-View Fusion Network for Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2012.06977v2
- Date: Tue, 5 Jan 2021 06:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 12:50:42.767876
- Title: MVFNet: Multi-View Fusion Network for Efficient Video Recognition
- Title(参考訳): MVFNet:効率的なビデオ認識のための多視点融合ネットワーク
- Authors: Wenhao Wu, Dongliang He, Tianwei Lin, Fu Li, Chuang Gan, Errui Ding
- Abstract要約: 分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
- 参考スコア(独自算出の注目度): 79.92736306354576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventionally, spatiotemporal modeling network and its complexity are the
two most concentrated research topics in video action recognition. Existing
state-of-the-art methods have achieved excellent accuracy regardless of the
complexity meanwhile efficient spatiotemporal modeling solutions are slightly
inferior in performance. In this paper, we attempt to acquire both efficiency
and effectiveness simultaneously. First of all, besides traditionally treating
H x W x T video frames as space-time signal (viewing from the Height-Width
spatial plane), we propose to also model video from the other two Height-Time
and Width-Time planes, to capture the dynamics of video thoroughly. Secondly,
our model is designed based on 2D CNN backbones and model complexity is well
kept in mind by design. Specifically, we introduce a novel multi-view fusion
(MVF) module to exploit video dynamics using separable convolution for
efficiency. It is a plug-and-play module and can be inserted into off-the-shelf
2D CNNs to form a simple yet effective model called MVFNet. Moreover, MVFNet
can be thought of as a generalized video modeling framework and it can
specialize to be existing methods such as C2D, SlowOnly, and TSM under
different settings. Extensive experiments are conducted on popular benchmarks
(i.e., Something-Something V1 & V2, Kinetics, UCF-101, and HMDB-51) to show its
superiority. The proposed MVFNet can achieve state-of-the-art performance with
2D CNN's complexity.
- Abstract(参考訳): 伝統的に、時空間モデリングネットワークとその複雑さは、ビデオアクション認識における2つの最も集中した研究テーマである。
既存の最先端手法は, 効率の良い時空間モデリングソリューションが性能においてわずかに劣っているのに対して, 複雑さに関わらず, 優れた精度を実現している。
本稿では,効率と効率を同時に獲得することを試みる。
まず,従来のH x W x Tビデオフレームを時空信号として扱うことに加えて,他の2面のハイトタイムとワイドタイムの映像をモデル化し,映像のダイナミクスを徹底的に捉えることを提案する。
第二に、我々のモデルは2D CNNのバックボーンに基づいて設計されており、モデル複雑性は設計によってよく意識されている。
具体的には,分離可能な畳み込みを用いたビデオダイナミックスを効率良く活用するための,新しいマルチビュー融合(mvf)モジュールを提案する。
これはプラグイン・アンド・プレイモジュールであり、市販の2D CNNに挿入してMVFNetと呼ばれるシンプルなモデルを作ることができる。
さらにMVFNetは、一般的なビデオモデリングフレームワークとみなすことができ、C2D、SlowOnly、TSMといった既存のメソッドを異なる設定で専門化することができる。
一般的なベンチマーク(例えば、Something V1 & V2, Kinetics, UCF-101, HMDB-51)では、その優位性を示す大規模な実験が行われている。
提案したMVFNetは2D CNNの複雑さで最先端のパフォーマンスを実現することができる。
関連論文リスト
- Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Searching for Two-Stream Models in Multivariate Space for Video
Recognition [80.25356538056839]
本稿では,巨大空間における2ストリーム映像モデルを効率的に検索できる実用的ニューラルアーキテクチャ探索手法を提案する。
設計空間において,性能が著しく向上した2ストリームモデルを自動的に発見できることを実証する。
論文 参考訳(メタデータ) (2021-08-30T02:03:28Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z) - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。
このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。
STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文 参考訳(メタデータ) (2020-03-18T04:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。