論文の概要: LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction
and Lip Reading
- arxiv url: http://arxiv.org/abs/2112.04748v1
- Date: Thu, 9 Dec 2021 08:11:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 15:51:55.931887
- Title: LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction
and Lip Reading
- Title(参考訳): LipSound2:lip-to-Speechリコンストラクションとリップリードのための自己監督型事前訓練
- Authors: Leyuan Qu, Cornelius Weber and Stefan Wermter
- Abstract要約: 本研究の目的は、ビデオ中の音声と視覚ストリームの自然な共起を利用して、音声再構成(ビデオから音声)のためのクロスモーダル自己教師による事前学習の効果を検討することである。
本稿では,エンコーダ・デコーダアーキテクチャと位置認識型アテンション機構を組み合わせたLipSound2を提案する。
- 参考スコア(独自算出の注目度): 24.744371143092614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The aim of this work is to investigate the impact of crossmodal
self-supervised pre-training for speech reconstruction (video-to-audio) by
leveraging the natural co-occurrence of audio and visual streams in videos. We
propose LipSound2 which consists of an encoder-decoder architecture and
location-aware attention mechanism to map face image sequences to mel-scale
spectrograms directly without requiring any human annotations. The proposed
LipSound2 model is firstly pre-trained on $\sim$2400h multi-lingual (e.g.
English and German) audio-visual data (VoxCeleb2). To verify the
generalizability of the proposed method, we then fine-tune the pre-trained
model on domain-specific datasets (GRID, TCD-TIMIT) for English speech
reconstruction and achieve a significant improvement on speech quality and
intelligibility compared to previous approaches in speaker-dependent and
-independent settings. In addition to English, we conduct Chinese speech
reconstruction on the CMLR dataset to verify the impact on transferability.
Lastly, we train the cascaded lip reading (video-to-text) system by fine-tuning
the generated audios on a pre-trained speech recognition system and achieve
state-of-the-art performance on both English and Chinese benchmark datasets.
- Abstract(参考訳): 本研究の目的は,映像中の音声と映像ストリームの自然共生を活かし,音声再構成におけるクロスモーダル自己教師付き事前学習の効果を検討することである。
人間のアノテーションを必要とせずに,顔画像のシーケンスを直接メルスケールのスペクトログラムにマッピングする,エンコーダデコーダアーキテクチャと位置対応アテンション機構を組み合わせたLipSound2を提案する。
提案されたlipsound2モデルは、まず$\sim$2400hのマルチリンガル(英語とドイツ語)オーディオビジュアルデータ(voxceleb2)で事前学習される。
提案手法の一般化性を検証するため, 英語音声再構成のためのドメイン固有データセット(GRID, TCD-TIMIT)の事前学習モデルを微調整し, 従来の話者依存・非依存設定法と比較して, 音声品質と聞きやすさを著しく改善した。
英語に加えて、CMLRデータセット上で中国語の音声再構成を行い、転送性への影響を検証する。
最後に,前訓練された音声認識システム上で生成された音声を微調整し,英語と中国語のベンチマークデータセットの両方で最先端のパフォーマンスを実現することにより,逐次的な唇読解(ビデオからテキストへの)システムを訓練する。
関連論文リスト
- Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - RobustL2S: Speaker-Specific Lip-to-Speech Synthesis exploiting
Self-Supervised Representations [13.995231731152462]
本稿では,Lip-to-Speech合成のためのモジュール化フレームワークRobustL2Sを提案する。
非自己回帰列列列モデルは、自己教師付き視覚特徴を非絡み合った音声内容の表現にマッピングする。
ボコーダは、音声特徴を生波形に変換する。
論文 参考訳(メタデータ) (2023-07-03T09:13:57Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - ReVISE: Self-Supervised Speech Resynthesis with Visual Input for
Universal and Generalized Speech Enhancement [40.29155338515071]
ReVISEは、Wildビデオ音声合成のための最初の高品質なモデルである。
単一のモデルで全てのLRS3オーディオ視覚強調タスクにおいて優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-21T21:36:52Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。