論文の概要: Audiovisual Speech Synthesis using Tacotron2
- arxiv url: http://arxiv.org/abs/2008.00620v2
- Date: Mon, 30 Aug 2021 02:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:58:35.702604
- Title: Audiovisual Speech Synthesis using Tacotron2
- Title(参考訳): Tacotron2を用いた音声合成
- Authors: Ahmed Hussen Abdelaziz, Anushree Prasanna Kumar, Chloe Seivwright,
Gabriele Fanelli, Justin Binder, Yannis Stylianou, Sachin Kajarekar
- Abstract要約: 3次元顔モデルのための2つの音声視覚音声合成システムを提案し,比較する。
AVTacotron2は、Tacotron2アーキテクチャに基づくエンドツーエンドの音声合成システムである。
第2の音声視覚音声合成システムはモジュールであり、従来のタコトロン2を用いて音声をテキストから合成する。
- 参考スコア(独自算出の注目度): 14.206988023567828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audiovisual speech synthesis is the problem of synthesizing a talking face
while maximizing the coherency of the acoustic and visual speech. In this
paper, we propose and compare two audiovisual speech synthesis systems for 3D
face models. The first system is the AVTacotron2, which is an end-to-end
text-to-audiovisual speech synthesizer based on the Tacotron2 architecture.
AVTacotron2 converts a sequence of phonemes representing the sentence to
synthesize into a sequence of acoustic features and the corresponding
controllers of a face model. The output acoustic features are used to condition
a WaveRNN to reconstruct the speech waveform, and the output facial controllers
are used to generate the corresponding video of the talking face. The second
audiovisual speech synthesis system is modular, where acoustic speech is
synthesized from text using the traditional Tacotron2. The reconstructed
acoustic speech signal is then used to drive the facial controls of the face
model using an independently trained audio-to-facial-animation neural network.
We further condition both the end-to-end and modular approaches on emotion
embeddings that encode the required prosody to generate emotional audiovisual
speech. We analyze the performance of the two systems and compare them to the
ground truth videos using subjective evaluation tests. The end-to-end and
modular systems are able to synthesize close to human-like audiovisual speech
with mean opinion scores (MOS) of 4.1 and 3.9, respectively, compared to a MOS
of 4.1 for the ground truth generated from professionally recorded videos.
While the end-to-end system gives a better overall quality, the modular
approach is more flexible and the quality of acoustic speech and visual speech
synthesis is almost independent of each other.
- Abstract(参考訳): 聴覚音声合成は、音声および視覚音声のコヒーレンシーを最大化しながら、発話面を合成する問題である。
本稿では,3次元顔モデルのための2つの音声視覚音声合成システムを提案し,比較する。
最初のシステムはavtacotron2であり、tacotron2アーキテクチャに基づいたエンドツーエンドの音声合成システムである。
AVTacotron2は、文を表す音素の列を合成して、顔モデルの音響的特徴の列と対応するコントローラに変換する。
出力された音響特徴をwavernnに条件付けして音声波形を再構成し、出力された顔制御器を用いて対応する顔の映像を生成する。
第2の音声視覚音声合成システムはモジュールであり、従来のタコトロン2を用いて音声をテキストから合成する。
次に、再構成された音声信号を用いて、独立に訓練された音声対顔アニメーションニューラルネットワークを用いて、顔モデルの顔制御を駆動する。
さらに,感情音声生成に必要な韻律をエンコードした感情埋め込みに対するエンドツーエンドとモジュール型の両方のアプローチを条件とした。
そこで本研究では,本システムの性能を分析し,主観的評価テストを用いて真理映像と比較する。
エンド・ツー・エンドとモジュラー・システムは、プロが録音したビデオから生成された4.1のMOSと比較して、平均意見スコア(MOS)が4.1と3.9の人間に近い音声を合成することができる。
エンドツーエンドシステムは全体的な品質を向上するが、モジュラーアプローチはより柔軟であり、音響音声と視覚音声の合成の質は互いにほぼ独立している。
関連論文リスト
- Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided
Speaker Embedding [52.84475402151201]
自己教師付き事前学習モデルと即時チューニング技術を用いた視覚誘導型話者埋め込み抽出器を提案する。
さらに,DiffV2Sと呼ばれる拡散型音声合成モデルを開発し,これらの話者埋め込みと入力ビデオから抽出した視覚表現を条件とした。
実験結果から,DiffV2Sは従来の音声合成技術と比較して最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-08-15T14:07:41Z) - Audio-visual video-to-speech synthesis with synthesized input audio [64.86087257004883]
トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。
特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
論文 参考訳(メタデータ) (2023-07-31T11:39:05Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - ReVISE: Self-Supervised Speech Resynthesis with Visual Input for
Universal and Generalized Speech Enhancement [40.29155338515071]
ReVISEは、Wildビデオ音声合成のための最初の高品質なモデルである。
単一のモデルで全てのLRS3オーディオ視覚強調タスクにおいて優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-21T21:36:52Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。