論文の概要: Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling
- arxiv url: http://arxiv.org/abs/2208.12257v1
- Date: Thu, 25 Aug 2022 17:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:36:54.901428
- Title: Video Mobile-Former: Video Recognition with Efficient Global
Spatial-temporal Modeling
- Title(参考訳): ビデオモバイルフォーマー:グローバル空間時間モデリングの効率化によるビデオ認識
- Authors: Rui Wang and Zuxuan Wu and Dongdong Chen and Yinpeng Chen and Xiyang
Dai and Mengchen Liu and Luowei Zhou and Lu Yuan and Yu-Gang Jiang
- Abstract要約: トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高のパフォーマンスを達成した。
Video Mobile-Formerはトランスフォーマーベースの最初のビデオモデルであり、1G FLOP内で計算予算を制限している。
- 参考スコア(独自算出の注目度): 125.95527079960725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have achieved top performance on major video
recognition benchmarks. Benefiting from the self-attention mechanism, these
models show stronger ability of modeling long-range dependencies compared to
CNN-based models. However, significant computation overheads, resulted from the
quadratic complexity of self-attention on top of a tremendous number of tokens,
limit the use of existing video transformers in applications with limited
resources like mobile devices. In this paper, we extend Mobile-Former to Video
Mobile-Former, which decouples the video architecture into a lightweight
3D-CNNs for local context modeling and a Transformer modules for global
interaction modeling in a parallel fashion. To avoid significant computational
cost incurred by computing self-attention between the large number of local
patches in videos, we propose to use very few global tokens (e.g., 6) for a
whole video in Transformers to exchange information with 3D-CNNs with a
cross-attention mechanism. Through efficient global spatial-temporal modeling,
Video Mobile-Former significantly improves the video recognition performance of
alternative lightweight baselines, and outperforms other efficient CNN-based
models at the low FLOP regime from 500M to 6G total FLOPs on various video
recognition tasks. It is worth noting that Video Mobile-Former is the first
Transformer-based video model which constrains the computational budget within
1G FLOPs.
- Abstract(参考訳): トランスフォーマーベースのモデルは、主要なビデオ認識ベンチマークで最高性能を達成した。
自己着脱機構の利点により、これらのモデルはcnnベースのモデルよりも長距離依存性をモデル化する能力が強い。
しかし、重大な計算オーバーヘッドは、膨大な数のトークンの上に自己注意の二次的な複雑さから生じ、モバイルデバイスのような限られたリソースを持つアプリケーションにおける既存のビデオトランスフォーマーの使用を制限する結果となった。
本稿では,モバイルフォーマをビデオモバイルフォーマに拡張し,ビデオアーキテクチャをローカルコンテキストモデリングのための軽量な3d-cnnsと,グローバルインタラクションモデリングのためのトランスフォーマモジュールを並列に分離する。
ビデオ中の多数のローカルパッチ間の自己アテンションを計算することで発生する計算コストを大幅に低減するため,トランスフォーマー内のビデオ全体に対して,クロスアテンション機構で3D-CNNと情報を交換するために,非常に少ないグローバルトークン(例:6)を使用することを提案する。
効率的なグローバル時空間モデリングにより、ビデオモバイルフォーマーは、代替の軽量ベースラインの映像認識性能を大幅に向上させ、様々なビデオ認識タスクにおいて、5Mから6GのFLOP状態において、他の効率的なCNNベースのモデルよりも優れる。
Video Mobile-Formerは1G FLOP内で計算予算を制限した最初のTransformerベースのビデオモデルである。
関連論文リスト
- Making Every Frame Matter: Continuous Video Understanding for Large Models via Adaptive State Modeling [14.450847211200292]
マルチモダリティアプリケーションの台頭に伴い、ビデオ理解はますます重要になっている。
適応状態モデリングによりこれらの問題を克服する新しいシステムC-VUEを導入する。
C-VUEには3つの重要な設計がある。第1に、歴史的ビデオ情報を保持するためにビデオ認識アプローチを使用する長距離履歴モデリング技術である。
2つ目は空間冗長性低減手法で、時間的関係に基づく歴史モデリングの効率を高める。
論文 参考訳(メタデータ) (2024-10-19T05:50:00Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Real-Time Video Inference on Edge Devices via Adaptive Model Streaming [9.101956442584251]
携帯電話やドローンなどのエッジデバイス上でのリアルタイムビデオ推論は、Deep Neural Networksのコストが高いため、難しい。
本稿では、エッジデバイス上での映像推論のための効率的な軽量モデルの性能向上のための新しいアプローチであるAdaptive Model Streaming (AMS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。