論文の概要: VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text
- arxiv url: http://arxiv.org/abs/2104.11178v1
- Date: Thu, 22 Apr 2021 17:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 14:07:26.600519
- Title: VATT: Transformers for Multimodal Self-Supervised Learning from Raw
Video, Audio and Text
- Title(参考訳): VATT: 生ビデオ, 音声, テキストからのマルチモーダル自己監督学習用トランスフォーマ
- Authors: Hassan Akbari, Linagzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu
Chang, Yin Cui, Boqing Gong
- Abstract要約: video-audio-text transformer (vatt) は生の信号を入力として取り、様々な下流タスクに役立つほどリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
- 参考スコア(独自算出の注目度): 60.97904439526213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a framework for learning multimodal representations from unlabeled
data using convolution-free Transformer architectures. Specifically, our
Video-Audio-Text Transformer (VATT) takes raw signals as inputs and extracts
multimodal representations that are rich enough to benefit a variety of
downstream tasks. We train VATT end-to-end from scratch using multimodal
contrastive losses and evaluate its performance by the downstream tasks of
video action recognition, audio event classification, image classification, and
text-to-video retrieval. Furthermore, we study a modality-agnostic
single-backbone Transformer by sharing weights among the three modalities. We
show that the convolution-free VATT outperforms state-of-the-art ConvNet-based
architectures in the downstream tasks. Especially, VATT's vision Transformer
achieves the top-1 accuracy of 82.1% on Kinetics-400, 83.6% on Kinetics-600,and
41.1% on Moments in Time, new records while avoiding supervised pre-training.
Transferring to image classification leads to 78.7% top-1 accuracy on ImageNet
compared to 64.7% by training the same Transformer from scratch, showing the
generalizability of our model despite the domain gap between videos and images.
VATT's audio Transformer also sets a new record on waveform-based audio event
recognition by achieving the mAP of 39.4% on AudioSet without any supervised
pre-training.
- Abstract(参考訳): 本稿では,畳み込みフリートランスフォーマーを用いてラベルなしデータからマルチモーダル表現を学ぶためのフレームワークを提案する。
具体的には、VATT(Video-Audio-Text Transformer)は生の信号を入力として取り出し、様々な下流タスクに十分なリッチなマルチモーダル表現を抽出する。
マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。
さらに,3つのモード間の重みの共有により,モダリティ非依存なシングルバックボーントランスについて検討した。
畳み込みのないVATTは、下流タスクにおいて最先端のConvNetベースのアーキテクチャよりも優れていることを示す。
特にVATTのビジョントランスフォーマーは、Kineetics-400で82.1%、Kineetics-600で83.6%、Moments in Timeで41.1%というトップ1の精度を達成した。
画像分類への転送はImageNetの78.7%の精度で、同じトランスフォーマーをスクラッチからトレーニングすることで64.7%の精度を実現した。
vattのオーディオトランスフォーマーはまた、事前トレーニングなしでオーディオセットの39.4%のマップを達成することで、波形ベースのオーディオイベント認識の新しい記録を設定する。
関連論文リスト
- SAVE: Segment Audio-Visual Easy way using Segment Anything Model [0.0]
そこで本研究では,AVSタスクに対して,事前学習セグメントモデル(SAM)を効率的に適用するための軽量なアプローチSAVEを提案する。
提案手法は,符号化段階における効果的な音声と視覚の融合と相互作用を実現する。
論文 参考訳(メタデータ) (2024-07-02T07:22:28Z) - Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video
Classification [6.341420717393898]
我々は,新しいマルチスケールオーディオトランス (MAT) とマルチスケールビデオトランス (MMT) を開発した。
提案されたMATは、3つの公開ベンチマークデータセットでAST[28]を22.2%、4.4%、4.7%で大幅に上回っている。
FLOPの数に基づいて約3%効率が良く、GPUメモリ使用量に基づいて9.8%効率が良い。
論文 参考訳(メタデータ) (2024-01-08T17:02:25Z) - Efficient Selective Audio Masked Multimodal Bottleneck Transformer for
Audio-Video Classification [6.341420717393898]
マルチモーダルビデオから学習するために,オーディオビデオトランスフォーマー(AVT)と呼ばれる新しいオーディオビデオ認識手法を提案する。
マルチモーダル融合では、単にトークンを時間的変換器で凝縮するには、大きな計算資源とメモリリソースが必要である。
AVTトレーニングには、自己監督対象、オーディオ・ビデオコントラスト学習、オーディオ・ビデオマッチング、マスク付きオーディオ・ビデオ学習が組み込まれ、多様なオーディオ・ビデオ表現を共通のマルチモーダル表現空間にマッピングする。
論文 参考訳(メタデータ) (2024-01-08T16:58:59Z) - Zorro: the masked multimodal transformer [68.99684436029884]
ゾロ(Zorro)は、トランスフォーマー内の各モードからの入力をどのようにルーティングするかを制御するためにマスクを使用するテクニックである。
対照的な事前学習により、Zorroはマルチモーダルタスクの最も関連性の高いベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-01-23T17:51:39Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Co-training Transformer with Videos and Images Improves Action
Recognition [49.160505782802886]
アクション認識の学習において、モデルは通常、ImageNetのようなオブジェクト認識イメージで事前訓練され、後にビデオによるターゲットアクション認識で微調整される。
このアプローチは、特に最近のトランスフォーマーベースのビデオアーキテクチャにおいて、優れた経験的性能を実現している。
ビデオトランスフォーマーは、多様なビデオデータセットとラベル空間のジョイントトレーニングの恩恵を受けるかを示す。
論文 参考訳(メタデータ) (2021-12-14T05:41:39Z) - Improved Multiscale Vision Transformers for Classification and Detection [80.64111139883694]
画像と映像の分類とオブジェクト検出のための統合アーキテクチャとして,MViT(Multiscale Vision Transformer)について検討した。
分割された相対的な位置埋め込みと残留プール接続を組み込んだMViTの改良版を提案する。
我々は、このアーキテクチャを5つのサイズでインスタンス化し、ImageNet分類、COCO検出およびKineeticsビデオ認識のために評価する。
論文 参考訳(メタデータ) (2021-12-02T18:59:57Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。