論文の概要: Efficient Selective Audio Masked Multimodal Bottleneck Transformer for
Audio-Video Classification
- arxiv url: http://arxiv.org/abs/2401.04154v1
- Date: Mon, 8 Jan 2024 16:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:48:46.661789
- Title: Efficient Selective Audio Masked Multimodal Bottleneck Transformer for
Audio-Video Classification
- Title(参考訳): 音声映像分類のための効率的な選択型マルチモーダルブートネック変換器
- Authors: Wentao Zhu
- Abstract要約: マルチモーダルビデオから学習するために,オーディオビデオトランスフォーマー(AVT)と呼ばれる新しいオーディオビデオ認識手法を提案する。
マルチモーダル融合では、単にトークンを時間的変換器で凝縮するには、大きな計算資源とメモリリソースが必要である。
AVTトレーニングには、自己監督対象、オーディオ・ビデオコントラスト学習、オーディオ・ビデオマッチング、マスク付きオーディオ・ビデオ学習が組み込まれ、多様なオーディオ・ビデオ表現を共通のマルチモーダル表現空間にマッピングする。
- 参考スコア(独自算出の注目度): 6.341420717393898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio and video are two most common modalities in the mainstream media
platforms, e.g., YouTube. To learn from multimodal videos effectively, in this
work, we propose a novel audio-video recognition approach termed audio video
Transformer, AVT, leveraging the effective spatio-temporal representation by
the video Transformer to improve action recognition accuracy. For multimodal
fusion, simply concatenating multimodal tokens in a cross-modal Transformer
requires large computational and memory resources, instead we reduce the
cross-modality complexity through an audio-video bottleneck Transformer. To
improve the learning efficiency of multimodal Transformer, we integrate
self-supervised objectives, i.e., audio-video contrastive learning, audio-video
matching, and masked audio and video learning, into AVT training, which maps
diverse audio and video representations into a common multimodal representation
space. We further propose a masked audio segment loss to learn semantic audio
activities in AVT. Extensive experiments and ablation studies on three public
datasets and two in-house datasets consistently demonstrate the effectiveness
of the proposed AVT. Specifically, AVT outperforms its previous
state-of-the-art counterparts on Kinetics-Sounds by 8%. AVT also surpasses one
of the previous state-of-the-art video Transformers [25] by 10% on VGGSound by
leveraging the audio signal. Compared to one of the previous state-of-the-art
multimodal methods, MBT [32], AVT is 1.3% more efficient in terms of FLOPs and
improves the accuracy by 3.8% on Epic-Kitchens-100.
- Abstract(参考訳): オーディオとビデオは、メインストリームのメディアプラットフォーム、例えばyoutubeでよく見られる2つのモードである。
本稿では,マルチモーダル映像を効果的に学習するために,映像トランスフォーマによる有効な時空間表現を活用し,動作認識精度を向上させる新しい音声映像認識手法であるavtを提案する。
マルチモーダル・フュージョンの場合,マルチモーダル・トークンをクロスモーダル・トランスフォーマーに結合するには,大規模な計算資源とメモリ資源を必要とする。
マルチモーダルトランスフォーマーの学習効率を向上させるため,オーディオ・ビデオコントラスト学習,オーディオ・ビデオマッチング,マスク付きオーディオ・ビデオ学習といった自己指導型目標をAVTトレーニングに統合し,多様なオーディオ・ビデオ表現を共通のマルチモーダル表現空間にマッピングする。
さらに,avtにおける意味的音声活動を学習するためのマスキング音声セグメント損失を提案する。
3つの公開データセットと2つの社内データセットに関する広範な実験とアブレーションの研究は、提案するavtの有効性を一貫して実証している。
特にAVTは、Kinetics-Soundsの最先端製品よりも8%上回っている。
AVTは、従来の最先端ビデオトランスフォーマー[25]の1つを、オーディオ信号を利用してVGGSoundで10%上回る。
MBT[32]と比較して、AVTはFLOPsの効率が1.3%向上し、Epic-Kitchens-100の精度が3.8%向上した。
関連論文リスト
- MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers [41.54004590821323]
マルチモーダルなセマンティックな特徴に対して,深いモーダルアライメントを用いたパラメータ効率の高いオーディオ視覚変換器MA-AVTを提案する。
具体的には,2つのモダリティを凍結したモダリティシェード変圧器で整列するための共同一様・多モードトークン学習を導入する。
ユニモーダルエンコーダの出力から得られた粗い特徴のみを整列する以前の作業とは異なり、粗大から細小の階層的特徴を整列するブロックワイドコントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-06-07T13:35:44Z) - Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video
Classification [6.341420717393898]
我々は,新しいマルチスケールオーディオトランス (MAT) とマルチスケールビデオトランス (MMT) を開発した。
提案されたMATは、3つの公開ベンチマークデータセットでAST[28]を22.2%、4.4%、4.7%で大幅に上回っている。
FLOPの数に基づいて約3%効率が良く、GPUメモリ使用量に基づいて9.8%効率が良い。
論文 参考訳(メタデータ) (2024-01-08T17:02:25Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Zorro: the masked multimodal transformer [68.99684436029884]
ゾロ(Zorro)は、トランスフォーマー内の各モードからの入力をどのようにルーティングするかを制御するためにマスクを使用するテクニックである。
対照的な事前学習により、Zorroはマルチモーダルタスクの最も関連性の高いベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-23T17:51:39Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Multimodal Transformer Distillation for Audio-Visual Synchronization [53.237653873618754]
本稿ではMTDVocaLiSTモデルを提案する。
MTDVocaLiSTはVocaLiSTのモデルサイズを83.52%削減するが、同様の性能を維持している。
論文 参考訳(メタデータ) (2022-10-27T15:53:38Z) - MM-ViT: Multi-Modal Video Transformer for Compressed Video Action
Recognition [11.573689558780764]
本稿では,ビデオアクション認識のためのMulti-Modal Video Transformer(MM-Vi)と呼ばれる,純粋なトランスフォーマーベースのアプローチを提案する。
複数のモダリティから抽出された多数のトークンを扱うために、空間、時間、モダリティ次元をまたいだ自己注意を分解するいくつかのモデル変種を開発する。
3つの公開行動認識ベンチマーク(UCF-101, Something-Something-v2, Kinetics-600)の大規模な実験は、MM-ViTが最先端のビデオトランスフォーマーよりも効率と精度で優れていることを示した。
論文 参考訳(メタデータ) (2021-08-20T18:05:39Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。