論文の概要: Neural Dubber: Dubbing for Silent Videos According to Scripts
- arxiv url: http://arxiv.org/abs/2110.08243v1
- Date: Fri, 15 Oct 2021 17:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 12:13:17.531394
- Title: Neural Dubber: Dubbing for Silent Videos According to Scripts
- Title(参考訳): Neural Dubber: スクリプトによるサイレントビデオのダビング
- Authors: Chenxu Hu, Qiao Tian, Tingle Li, Yuping Wang, Yuxuan Wang, Hang Zhao
- Abstract要約: 本稿では,新しい自動ビデオダビング(AVD)タスクを解決するニューラルネットワークモデルであるNeural Dubberを提案する。
Neural Dubberは、ビデオ中の唇の動きを利用して生成された音声の韻律を制御するマルチモーダルテキスト音声モデルである。
実験により、ニューラルダバーはビデオによって合成音声の韻律を制御でき、ビデオと時間的に同期した高忠実度音声を生成する。
- 参考スコア(独自算出の注目度): 22.814626504851752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dubbing is a post-production process of re-recording actors' dialogues, which
is extensively used in filmmaking and video production. It is usually performed
manually by professional voice actors who read lines with proper prosody, and
in synchronization with the pre-recorded videos. In this work, we propose
Neural Dubber, the first neural network model to solve a novel automatic video
dubbing (AVD) task: synthesizing human speech synchronized with the given
silent video from the text. Neural Dubber is a multi-modal text-to-speech (TTS)
model that utilizes the lip movement in the video to control the prosody of the
generated speech. Furthermore, an image-based speaker embedding (ISE) module is
developed for the multi-speaker setting, which enables Neural Dubber to
generate speech with a reasonable timbre according to the speaker's face.
Experiments on the chemistry lecture single-speaker dataset and LRS2
multi-speaker dataset show that Neural Dubber can generate speech audios on par
with state-of-the-art TTS models in terms of speech quality. Most importantly,
both qualitative and quantitative evaluations show that Neural Dubber can
control the prosody of synthesized speech by the video, and generate
high-fidelity speech temporally synchronized with the video.
- Abstract(参考訳): ドビングは俳優の対話を再録音するポストプロダクションプロセスであり、映画製作やビデオ制作で広く使われている。
通常は、適切な韻律で行を読み、あらかじめ録音されたビデオと同期するプロの声優によって手作業で演奏される。
本研究では,テキストから与えられたサイレントビデオと同期した人間の音声を合成する,新しい自動ビデオダビング(AVD)課題を解決するニューラルネットワークモデルであるNeural Dubberを提案する。
Neural Dubberは、ビデオ中の唇の動きを利用して生成された音声の韻律を制御するマルチモーダルテキスト音声(TTS)モデルである。
さらに、マルチスピーカ設定のための画像ベース話者埋め込み(ISE)モジュールを開発し、話者の顔に応じて適切な音色で音声を生成することができる。
chemistry lecture single-speaker dataset と lrs2 multi-speaker dataset の実験では、ニューラル・ドバが最新のttsモデルと同等の音声品質で音声を生成できることが示されている。
最も重要なことは、質的、定量的な評価は、Neural Dubberがビデオによって合成された音声の韻律を制御でき、ビデオと時間的に同期した高忠実度音声を生成することを示している。
関連論文リスト
- SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - More than Words: In-the-Wild Visually-Driven Prosody for Text-to-Speech [9.035846000646481]
ダビングによって動機づけられたVDTTSは、テキストとともに追加入力としてビデオフレームを利用する。
我々は、VDTTSが自然停止やピッチのような韻律的変化を持つだけでなく、入力ビデオと同期する音声を生成することができることを示す。
論文 参考訳(メタデータ) (2021-11-19T10:23:38Z) - AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary
Person [21.126759304401627]
本稿では,テキストと任意の人物の顔画像を入力として,同期音声とトーキングヘッド映像を自動生成する手法を提案する。
実験の結果,提案手法は任意の人や非人に対して,同期音声と音声のヘッドビデオを生成することができることがわかった。
論文 参考訳(メタデータ) (2021-08-09T19:58:38Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。