論文の概要: MAViL: Masked Audio-Video Learners
- arxiv url: http://arxiv.org/abs/2212.08071v2
- Date: Mon, 17 Jul 2023 05:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 23:38:09.174176
- Title: MAViL: Masked Audio-Video Learners
- Title(参考訳): mavil: マスキングされたオーディオビデオ学習者
- Authors: Po-Yao Huang, Vasu Sharma, Hu Xu, Chaitanya Ryali, Haoqi Fan, Yanghao
Li, Shang-Wen Li, Gargi Ghosh, Jitendra Malik, Christoph Feichtenhofer
- Abstract要約: 本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
- 参考スコア(独自算出の注目度): 68.61844803682145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Masked Audio-Video Learners (MAViL) to train audio-visual
representations. Our approach learns with three complementary forms of
self-supervision: (1) reconstruction of masked audio and video input data, (2)
intra- and inter-modal contrastive learning with masking, and (3) self-training
by reconstructing joint audio-video contextualized features learned from the
first two objectives. Pre-training with MAViL not only enables the model to
perform well in audio-visual classification and retrieval tasks but also
improves representations of each modality in isolation, without using
information from the other modality for fine-tuning or inference. Empirically,
MAViL sets a new state-of-the-art on AudioSet (53.1 mAP) and VGGSound (67.1%
accuracy). For the first time, a self-supervised audio-visual model outperforms
ones that use external supervision on these benchmarks.
- Abstract(参考訳): 本研究では,masked Audio-Video Learners (MAViL) を用いて映像表現の学習を行う。
提案手法は,(1)マスク付き音声・ビデオ入力データの再構成,(2)マスキングによるモーダル内およびモーダル間コントラスト学習,(3)最初の2つの目的から学習した音声・ビデオのコンテキスト化特徴の再構成による自己学習の3つの相補的な形態で学習する。
MAViLによる事前トレーニングは、音声・視覚的分類および検索タスクにおいて、モデルがうまく機能するだけでなく、微調整や推論のために他のモードからの情報を使わずに、個別に各モードの表現を改善することができる。
MAViLは、AudioSet(53.1 mAP)とVGGSound(67.1%の精度)に新たな最先端技術を設定する。
自己教師付きオーディオビジュアルモデルが初めて、これらのベンチマークの外部監視を使用するモデルよりも優れている。
関連論文リスト
- Diffusion Models as Masked Audio-Video Learners [27.22726553443404]
Masked Audio-Video Learningers (MAViL) は最先端のオーディオビデオ事前学習フレームワークとして登場した。
本稿では,拡散モデルとMAViLの相乗効果について検討する。
論文 参考訳(メタデータ) (2023-10-05T23:00:27Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。