論文の概要: Contrastive Audio-Visual Masked Autoencoder
- arxiv url: http://arxiv.org/abs/2210.07839v4
- Date: Tue, 11 Apr 2023 22:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 18:48:24.083483
- Title: Contrastive Audio-Visual Masked Autoencoder
- Title(参考訳): コントラスト型視聴覚マスクオートエンコーダ
- Authors: Yuan Gong, Andrew Rouditchenko, Alexander H. Liu, David Harwath,
Leonid Karlinsky, Hilde Kuehne, James Glass
- Abstract要約: CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
- 参考スコア(独自算出の注目度): 85.53776628515561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we first extend the recent Masked Auto-Encoder (MAE) model
from a single modality to audio-visual multi-modalities. Subsequently, we
propose the Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE) by combining
contrastive learning and masked data modeling, two major self-supervised
learning frameworks, to learn a joint and coordinated audio-visual
representation. Our experiments show that the contrastive audio-visual
correspondence learning objective not only enables the model to perform
audio-visual retrieval tasks, but also helps the model learn a better joint
representation. As a result, our fully self-supervised pretrained CAV-MAE
achieves a new SOTA accuracy of 65.9% on VGGSound, and is comparable with the
previous best supervised pretrained model on AudioSet in the audio-visual event
classification task. Code and pretrained models are at
https://github.com/yuangongnd/cav-mae.
- Abstract(参考訳): 本稿では,最新のMasked Auto-Encoder(MAE)モデルを単一モーダルからオーディオ視覚多目的へ拡張する。
次に, コントラスト学習とマスキングデータモデリングを組み合わせることで, 協調学習と協調学習を実現するコントラスト音声視覚マスク自動エンコーダ (cav-mae) を提案する。
実験の結果, 音声-視覚対応学習の目的は, モデルが音声-視覚検索タスクを実行できるだけでなく, モデルがより優れた関節表現を学習するのに役立つことがわかった。
その結果、VGGSoundでは、完全自己教師付きCAV-MAEが65.9%の新しいSOTA精度を実現し、オーディオ-視覚イベント分類タスクにおけるAudioSetの教師付き事前訓練モデルに匹敵する結果となった。
コードと事前トレーニングされたモデルはhttps://github.com/yuangongnd/cav-maeにある。
関連論文リスト
- From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - MAViL: Masked Audio-Video Learners [68.61844803682145]
本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-15T18:59:59Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。