論文の概要: End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks
- arxiv url: http://arxiv.org/abs/2104.13332v1
- Date: Tue, 27 Apr 2021 17:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 13:33:27.610287
- Title: End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks
- Title(参考訳): 生成逆ネットワークを用いたエンドツーエンドビデオ音声合成
- Authors: Rodrigo Mira, Konstantinos Vougioukas, Pingchuan Ma, Stavros Petridis,
Bj\"orn W. Schuller, Maja Pantic
- Abstract要約: GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
- 参考スコア(独自算出の注目度): 54.43697805589634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-to-speech is the process of reconstructing the audio speech from a
video of a spoken utterance. Previous approaches to this task have relied on a
two-step process where an intermediate representation is inferred from the
video, and is then decoded into waveform audio using a vocoder or a waveform
reconstruction algorithm. In this work, we propose a new end-to-end
video-to-speech model based on Generative Adversarial Networks (GANs) which
translates spoken video to waveform end-to-end without using any intermediate
representation or separate waveform synthesis algorithm. Our model consists of
an encoder-decoder architecture that receives raw video as input and generates
speech, which is then fed to a waveform critic and a power critic. The use of
an adversarial loss based on these two critics enables the direct synthesis of
raw audio waveform and ensures its realism. In addition, the use of our three
comparative losses helps establish direct correspondence between the generated
audio and the input video. We show that this model is able to reconstruct
speech with remarkable realism for constrained datasets such as GRID, and that
it is the first end-to-end model to produce intelligible speech for LRW (Lip
Reading in the Wild), featuring hundreds of speakers recorded entirely `in the
wild'. We evaluate the generated samples in two different scenarios -- seen and
unseen speakers -- using four objective metrics which measure the quality and
intelligibility of artificial speech. We demonstrate that the proposed approach
outperforms all previous works in most metrics on GRID and LRW.
- Abstract(参考訳): video-to-speechは、音声発話のビデオから音声音声を再構築するプロセスである。
この課題に対する従来のアプローチは、ビデオから中間表現を推測する2段階のプロセスに依存しており、ボイコーダや波形再構成アルゴリズムを用いて波形音声に復号される。
本研究では、中間表現や別個の波形合成アルゴリズムを使わずに、音声映像から波形への変換を行うGAN(Generative Adversarial Networks)に基づく、新しいエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として入力し,音声を生成するエンコーダ・デコーダアーキテクチャからなり,波形批判者およびパワー批判者に供給される。
これら2つの批判に基づく敵対的損失を用いることで、生音声波形を直接合成し、その現実性を確保することができる。
さらに,この3つの比較損失は,生成された音声と入力映像との直接対応を確立する上で有用である。
本モデルでは,グリッドなどの制約付きデータセットに対して有意なリアリズムを持つ音声を再構成することが可能であり,lrw (lip reading in the wild) に完全「野生」で録音された数百人の話者を特徴とする,エンドツーエンドの音声を生成できる最初のモデルであることを示す。
人工音声の質と知性を測定する4つの客観的指標を用いて,生成したサンプルを2つの異なるシナリオで評価した。
提案手法は,GRID と LRW のほとんどの指標において,従来の手法よりも優れていることを示す。
関連論文リスト
- Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Audio-visual video-to-speech synthesis with synthesized input audio [64.86087257004883]
トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。
特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
論文 参考訳(メタデータ) (2023-07-31T11:39:05Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - ReVISE: Self-Supervised Speech Resynthesis with Visual Input for
Universal and Generalized Speech Enhancement [40.29155338515071]
ReVISEは、Wildビデオ音声合成のための最初の高品質なモデルである。
単一のモデルで全てのLRS3オーディオ視覚強調タスクにおいて優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-21T21:36:52Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。