論文の概要: CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization
- arxiv url: http://arxiv.org/abs/2505.03186v1
- Date: Tue, 06 May 2025 05:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.218198
- Title: CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization
- Title(参考訳): CoGenAV:Contrastive-Generative SynchronizationによるVersatile Audio-Visual Representation Learning
- Authors: Detao Bai, Zhiheng Ma, Xihan Wei, Liefeng Bo,
- Abstract要約: CoGenAVは、汎用的なオーディオ視覚表現を学習するために設計された、強力でデータ効率のよいモデルである。
CoGenAVは、自然な音声-視覚同期、対照的な特徴アライメント、生成テキスト予測から導かれる2つの目的を最適化することで訓練される。
複数のベンチマークで学習したCoGenAV表現の有効性と汎用性を示す。
- 参考スコア(独自算出の注目度): 16.372875825530787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The inherent synchronization between a speaker's lip movements, voice, and the underlying linguistic content offers a rich source of information for improving speech processing tasks, especially in challenging conditions where traditional audio-only systems falter. We introduce CoGenAV, a powerful and data-efficient model designed to learn versatile audio-visual representations applicable across a wide range of speech and audio-visual tasks. CoGenAV is trained by optimizing a dual objective derived from natural audio-visual synchrony, contrastive feature alignment and generative text prediction, using only 223 hours of labeled data from the LRS2 dataset. This contrastive-generative synchronization strategy effectively captures fundamental cross-modal correlations. We showcase the effectiveness and versatility of the learned CoGenAV representations on multiple benchmarks. When utilized for Audio-Visual Speech Recognition (AVSR) on LRS2, these representations contribute to achieving a state-of-the-art Word Error Rate (WER) of 1.27. They also enable strong performance in Visual Speech Recognition (VSR) with a WER of 22.0 on LRS2, and significantly improve performance in noisy environments by over 70%. Furthermore, CoGenAV representations benefit speech reconstruction tasks, boosting performance in Speech Enhancement and Separation, and achieve competitive results in audio-visual synchronization tasks like Active Speaker Detection (ASD). Our model will be open-sourced to facilitate further development and collaboration within both academia and industry.
- Abstract(参考訳): 話者の唇の動き、声、および下層の言語内容との固有の同期は、特に従来の音声のみのシステムが混乱する困難な状況において、音声処理タスクを改善するための豊富な情報源を提供する。
我々は,幅広い音声・音声・視覚タスクに適用可能な汎用的な音声・視覚表現を学習するために設計された,パワフルでデータ効率のよいモデルであるCoGenAVを紹介する。
CoGenAVは、LRS2データセットからのラベル付きデータのわずか223時間を使用して、自然なオーディオ-視覚同期、対照的な特徴アライメント、生成テキスト予測から導かれる2つの目的を最適化することで訓練される。
この対照的な生成的同期戦略は、基本的な相互相関を効果的に捉える。
複数のベンチマークで学習したCoGenAV表現の有効性と汎用性を示す。
LRS2上でAVSR(Audio-Visual Speech Recognition)を利用すると、これらの表現は1.27の最先端ワード誤り率(WER)を達成するのに寄与する。
また、LRS2上で22.0のWERを持つ視覚音声認識(VSR)の強い性能を実現し、ノイズの多い環境における性能を70%以上向上させる。
さらに、CoGenAV表現は、音声再構成タスクの恩恵、音声強調と分離のパフォーマンスの向上、アクティブ話者検出(ASD)のような音声-視覚同期タスクの競合的な結果を達成する。
私たちのモデルは、学術と産業の両方において、さらなる開発とコラボレーションを促進するために、オープンソース化されます。
関連論文リスト
- WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - Lip2Vec: Efficient and Robust Visual Speech Recognition via
Latent-to-Latent Visual to Audio Representation Mapping [4.271091833712731]
従来のモデルから学習するシンプルなアプローチであるLip2Vecを提案する。
提案手法は LRS3 データセット上で26 WER を達成する完全教師付き学習法と比較した。
我々は、VSRをASRタスクとして再プログラムすることで、両者のパフォーマンスギャップを狭め、より柔軟な唇読解法を構築することができると考えている。
論文 参考訳(メタデータ) (2023-08-11T12:59:02Z) - Simultaneous or Sequential Training? How Speech Representations
Cooperate in a Multi-Task Self-Supervised Learning System [12.704529528199064]
最近の研究は、表現学習のための自己教師付き学習(SSL)と視覚接地音声(VGS)処理機構を組み合わせたものである。
マルチタスク学習システムとして,wav2vec 2.0ベースのSSLとトランスフォーマーベースのVGSの協調最適化について検討した。
論文 参考訳(メタデータ) (2023-06-05T15:35:19Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。