論文の概要: Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video
Classification
- arxiv url: http://arxiv.org/abs/2401.04023v1
- Date: Mon, 8 Jan 2024 17:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 14:47:26.821979
- Title: Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video
Classification
- Title(参考訳): 音声映像分類のためのマルチスケールマルチモーダルブートネック変換器
- Authors: Wentao Zhu
- Abstract要約: 我々は,新しいマルチスケールオーディオトランス (MAT) とマルチスケールビデオトランス (MMT) を開発した。
提案されたMATは、3つの公開ベンチマークデータセットでAST[28]を22.2%、4.4%、4.7%で大幅に上回っている。
FLOPの数に基づいて約3%効率が良く、GPUメモリ使用量に基づいて9.8%効率が良い。
- 参考スコア(独自算出の注目度): 6.341420717393898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, researchers combine both audio and video signals to deal
with challenges where actions are not well represented or captured by visual
cues. However, how to effectively leverage the two modalities is still under
development. In this work, we develop a multiscale multimodal Transformer (MMT)
that leverages hierarchical representation learning. Particularly, MMT is
composed of a novel multiscale audio Transformer (MAT) and a multiscale video
Transformer [43]. To learn a discriminative cross-modality fusion, we further
design multimodal supervised contrastive objectives called audio-video
contrastive loss (AVC) and intra-modal contrastive loss (IMC) that robustly
align the two modalities. MMT surpasses previous state-of-the-art approaches by
7.3% and 2.1% on Kinetics-Sounds and VGGSound in terms of the top-1 accuracy
without external training data. Moreover, the proposed MAT significantly
outperforms AST [28] by 22.2%, 4.4% and 4.7% on three public benchmark
datasets, and is about 3% more efficient based on the number of FLOPs and 9.8%
more efficient based on GPU memory usage.
- Abstract(参考訳): 近年、研究者は音声信号と映像信号を組み合わせることで、アクションが視覚的な手掛かりによってうまく表現されないような課題に対処している。
しかし、この2つのモダリティを効果的に活用する方法はまだ開発中である。
本研究では,階層的表現学習を利用したマルチスケールマルチモーダルトランスフォーマ(mmt)を開発した。
特に、MMTは、新しいマルチスケールオーディオ変換器(MAT)とマルチスケールビデオ変換器[43]から構成される。
識別可能なクロスモダリティ融合を学ぶために,我々は,オーディオビデオコントラスト損失 (avc) とイントラモダリティコントラスト損失 (imc) と呼ばれる2つのモダリティをロバストに整合させるマルチモダリティ教師付きコントラスト目標を更に設計する。
MMTは従来の最先端の手法を7.3%、Kinetics-SoundsとVGGSoundで2.1%上回っている。
さらに,提案手法は3つのベンチマークデータセットにおいて,ast[28]を22.2%,4.4%,4.7%と有意に上回り,フロップ数に基づいて約3%,gpuメモリ使用量に基づいて9.8%効率が向上した。
関連論文リスト
- MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers [41.54004590821323]
マルチモーダルなセマンティックな特徴に対して,深いモーダルアライメントを用いたパラメータ効率の高いオーディオ視覚変換器MA-AVTを提案する。
具体的には,2つのモダリティを凍結したモダリティシェード変圧器で整列するための共同一様・多モードトークン学習を導入する。
ユニモーダルエンコーダの出力から得られた粗い特徴のみを整列する以前の作業とは異なり、粗大から細小の階層的特徴を整列するブロックワイドコントラスト学習を導入する。
論文 参考訳(メタデータ) (2024-06-07T13:35:44Z) - Improving Multimodal Learning with Multi-Loss Gradient Modulation [3.082715511775795]
我々は,マルチロス目標を導入し,バランスプロセスをさらに洗練することにより,従来の作業を改善する。
CREMA-Dでは、ResNetエンコーダのバックボーンを持つモデルが、以前の最高値を1.9%から12.4%上回っている。
論文 参考訳(メタデータ) (2024-05-13T17:01:28Z) - Efficient Selective Audio Masked Multimodal Bottleneck Transformer for
Audio-Video Classification [6.341420717393898]
マルチモーダルビデオから学習するために,オーディオビデオトランスフォーマー(AVT)と呼ばれる新しいオーディオビデオ認識手法を提案する。
マルチモーダル融合では、単にトークンを時間的変換器で凝縮するには、大きな計算資源とメモリリソースが必要である。
AVTトレーニングには、自己監督対象、オーディオ・ビデオコントラスト学習、オーディオ・ビデオマッチング、マスク付きオーディオ・ビデオ学習が組み込まれ、多様なオーディオ・ビデオ表現を共通のマルチモーダル表現空間にマッピングする。
論文 参考訳(メタデータ) (2024-01-08T16:58:59Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Multimodal Transformer Distillation for Audio-Visual Synchronization [53.237653873618754]
本稿ではMTDVocaLiSTモデルを提案する。
MTDVocaLiSTはVocaLiSTのモデルサイズを83.52%削減するが、同様の性能を維持している。
論文 参考訳(メタデータ) (2022-10-27T15:53:38Z) - A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS [52.51848317549301]
高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。
合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
論文 参考訳(メタデータ) (2022-09-22T09:43:17Z) - VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text [60.97904439526213]
video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
論文 参考訳(メタデータ) (2021-04-22T17:07:41Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。