論文の概要: MM-ViT: Multi-Modal Video Transformer for Compressed Video Action
Recognition
- arxiv url: http://arxiv.org/abs/2108.09322v1
- Date: Fri, 20 Aug 2021 18:05:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:50:13.319245
- Title: MM-ViT: Multi-Modal Video Transformer for Compressed Video Action
Recognition
- Title(参考訳): mm-vit:圧縮ビデオ動作認識用マルチモーダルビデオトランス
- Authors: Jiawei Chen, Chiu Man Ho
- Abstract要約: 本稿では,ビデオアクション認識のためのMulti-Modal Video Transformer(MM-Vi)と呼ばれる,純粋なトランスフォーマーベースのアプローチを提案する。
複数のモダリティから抽出された多数のトークンを扱うために、空間、時間、モダリティ次元をまたいだ自己注意を分解するいくつかのモデル変種を開発する。
3つの公開行動認識ベンチマーク(UCF-101, Something-Something-v2, Kinetics-600)の大規模な実験は、MM-ViTが最先端のビデオトランスフォーマーよりも効率と精度で優れていることを示した。
- 参考スコア(独自算出の注目度): 11.573689558780764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a pure transformer-based approach, dubbed the Multi-Modal
Video Transformer (MM-ViT), for video action recognition. Different from other
schemes which solely utilize the decoded RGB frames, MM-ViT operates
exclusively in the compressed video domain and exploits all readily available
modalities, i.e., I-frames, motion vectors, residuals and audio waveform. In
order to handle the large number of spatiotemporal tokens extracted from
multiple modalities, we develop several scalable model variants which factorize
self-attention across the space, time and modality dimensions. In addition, to
further explore the rich inter-modal interactions and their effects, we develop
and compare three distinct cross-modal attention mechanisms that can be
seamlessly integrated into the transformer building block. Extensive
experiments on three public action recognition benchmarks (UCF-101,
Something-Something-v2, Kinetics-600) demonstrate that MM-ViT outperforms the
state-of-the-art video transformers in both efficiency and accuracy, and
performs better or equally well to the state-of-the-art CNN counterparts with
computationally-heavy optical flow.
- Abstract(参考訳): 本稿では,マルチモーダルビデオトランスフォーマタ (mm-vit) と呼ばれる,ビデオ動作認識のための純粋トランスフォーマティブ方式を提案する。
復号化RGBフレームのみを利用する他のスキームとは異なり、MM-ViTは圧縮されたビデオ領域でのみ動作し、Iフレーム、モーションベクトル、残差、オーディオ波形など、利用可能なすべてのモダリティを利用する。
複数のモーダル性から抽出された多数の時空間トークンを扱うために,空間,時間,モダリティ次元をまたいだ自己アテンションを分解するスケーラブルなモデル変異体を開発した。
さらに, リッチなモーダル間相互作用とその効果をさらに探究するため, トランスフォーマービルディングブロックにシームレスに統合可能な3つの異なるクロスモーダル注意機構を開発・比較した。
3つの公開行動認識ベンチマーク(UCF-101, Something-Something-v2, Kinetics-600)の大規模な実験は、MM-ViTが最先端のビデオトランスフォーマーを効率と精度の両方で上回り、計算量の多いCNNと同等か等に優れていることを示した。
関連論文リスト
- MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers [41.54004590821323]
マルチモーダルなセマンティックな特徴に対して,深いモーダルアライメントを用いたパラメータ効率の高いオーディオ視覚変換器MA-AVTを提案する。
具体的には,2つのモダリティを凍結したモダリティシェード変圧器で整列するための共同一様・多モードトークン学習を導入する。
ユニモーダルエンコーダの出力から得られた粗い特徴のみを整列する以前の作業とは異なり、粗大から細小の階層的特徴を整列するブロックワイドコントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-06-07T13:35:44Z) - Efficient Selective Audio Masked Multimodal Bottleneck Transformer for
Audio-Video Classification [6.341420717393898]
マルチモーダルビデオから学習するために,オーディオビデオトランスフォーマー(AVT)と呼ばれる新しいオーディオビデオ認識手法を提案する。
マルチモーダル融合では、単にトークンを時間的変換器で凝縮するには、大きな計算資源とメモリリソースが必要である。
AVTトレーニングには、自己監督対象、オーディオ・ビデオコントラスト学習、オーディオ・ビデオマッチング、マスク付きオーディオ・ビデオ学習が組み込まれ、多様なオーディオ・ビデオ表現を共通のマルチモーダル表現空間にマッピングする。
論文 参考訳(メタデータ) (2024-01-08T16:58:59Z) - VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - MMViT: Multiscale Multiview Vision Transformers [36.93551299085767]
本稿では,マルチスケール・マルチビュー・ビジョン・トランスフォーマ (MMViT) を提案する。
我々のモデルは入力信号の異なるビューを符号化し、複数のチャンネル解像度の特徴段階を構築し、異なる解像度の入力の複数のビューを並列に処理する。
本稿では,MMViTが音声および画像の分類作業に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-28T21:51:41Z) - MED-VT++: Unifying Multimodal Learning with a Multiscale Encoder-Decoder Video Transformer [12.544216587327387]
本稿では,ビデオ中の高密度な予測タスクに着目した,エンドツーエンドのトレーニング可能なマルチスケールエンコーダ・デコーダ変換器を提案する。
提示されたMED-VT(Multiscale-Decoder Video)は、ビデオ全体にわたってマルチスケール表現を使用し、ビデオ以外の任意の入力を使用する。
本稿では,時間的に一貫したビデオ予測を提供するため,多対多のラベル伝搬によるトランスダクティブ学習方式を提案する。
論文 参考訳(メタデータ) (2023-04-12T15:50:19Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - Zorro: the masked multimodal transformer [68.99684436029884]
ゾロ(Zorro)は、トランスフォーマー内の各モードからの入力をどのようにルーティングするかを制御するためにマスクを使用するテクニックである。
対照的な事前学習により、Zorroはマルチモーダルタスクの最も関連性の高いベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-23T17:51:39Z) - MAGVIT: Masked Generative Video Transformer [129.50814875955444]
我々は,MAsked Generative VIdeo Transformer(MAGVIT)を導入し,単一のモデルで様々なビデオ合成タスクに取り組む。
単一のMAGVITモデルは10の多様な生成タスクをサポートし、異なる視覚領域からのビデオ間で一般化する。
論文 参考訳(メタデータ) (2022-12-10T04:26:32Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。