論文の概要: Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos
- arxiv url: http://arxiv.org/abs/2206.04523v1
- Date: Thu, 9 Jun 2022 14:15:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 13:25:44.721033
- Title: Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos
- Title(参考訳): Face-Dubbing++:リップシンクロ、ビデオの音声保存
- Authors: Alexander Waibel and Moritz Behr and Fevziye Irem Eyiokur and Dogucan
Yaman and Tuan-Nam Nguyen and Carlos Mullov and Mehmet Arif Demirtas and
Alperen Kantarc{\i} and Stefan Constantin and Haz{\i}m Kemal Ekenel
- Abstract要約: このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
- 参考スコア(独自算出の注目度): 54.08224321456871
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we propose a neural end-to-end system for voice preserving,
lip-synchronous translation of videos. The system is designed to combine
multiple component models and produces a video of the original speaker speaking
in the target language that is lip-synchronous with the target speech, yet
maintains emphases in speech, voice characteristics, face video of the original
speaker. The pipeline starts with automatic speech recognition including
emphasis detection, followed by a translation model. The translated text is
then synthesized by a Text-to-Speech model that recreates the original emphases
mapped from the original sentence. The resulting synthetic voice is then mapped
back to the original speakers' voice using a voice conversion model. Finally,
to synchronize the lips of the speaker with the translated audio, a conditional
generative adversarial network-based model generates frames of adapted lip
movements with respect to the input face image as well as the output of the
voice conversion model. In the end, the system combines the generated video
with the converted audio to produce the final output. The result is a video of
a speaker speaking in another language without actually knowing it. To evaluate
our design, we present a user study of the complete system as well as separate
evaluations of the single components. Since there is no available dataset to
evaluate our whole system, we collect a test set and evaluate our system on
this test set. The results indicate that our system is able to generate
convincing videos of the original speaker speaking the target language while
preserving the original speaker's characteristics. The collected dataset will
be shared.
- Abstract(参考訳): 本稿では,ビデオの音声保存・唇同期翻訳のためのニューラルエンド・ツー・エンドシステムを提案する。
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元話者のビデオを生成し、対象話者と唇同期するが、音声、音声特性、顔映像のエムフェーズを維持できるように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
翻訳されたテキストはText-to-Speechモデルで合成され、原文からマッピングされた原文のエンフェーズを再現する。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
最後に、この変換音声と話者の唇を同期させるために、条件付き生成逆ネットワークベースモデルは、入力された顔画像と音声変換モデルの出力に対して適応した唇運動のフレームを生成する。
最後に、システムは生成されたビデオと変換されたオーディオを組み合わせて最終的な出力を生成する。
その結果は、話者が実際にそれを知らずに他の言語で話すビデオである。
設計を評価するため,システム全体のユーザスタディと,単一コンポーネントの個別評価について述べる。
システム全体を評価するためのデータセットが存在しないため、テストセットを収集し、このテストセット上でシステムを評価する。
その結果,本システムは,本来の話者の特徴を保ちながら,対象言語を発話する話者の説得力のある映像を生成できることが示唆された。
収集したデータセットは共有される。
関連論文リスト
- Automatic Voice Identification after Speech Resynthesis using PPG [13.041006302302808]
音声の再合成は、入力として別の音声で音声を合成したいという一般的なタスクである。
本稿では, PPGに基づく音声合成システムを提案する。
知覚的評価は、それが正しい音質を生み出すことを評価する。
論文 参考訳(メタデータ) (2024-08-05T13:59:40Z) - Audio-visual video-to-speech synthesis with synthesized input audio [64.86087257004883]
トレーニングと推論における音声合成におけるビデオ入力と音声入力の併用効果について検討する。
特に、事前学習したビデオ音声合成モデルを用いて、欠落した音声信号を合成し、サイレントビデオと合成音声の両方を入力として、音声音声合成モデルを訓練し、最終的な再構成音声を予測する。
論文 参考訳(メタデータ) (2023-07-31T11:39:05Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Cross-lingual Text-To-Speech with Flow-based Voice Conversion for
Improved Pronunciation [11.336431583289382]
本稿では,エンドツーエンドの言語間テキスト合成手法を提案する。
本来の話者の言語によらず、対象言語の発音を維持することを目的としている。
論文 参考訳(メタデータ) (2022-10-31T12:44:53Z) - LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction
and Lip Reading [24.744371143092614]
本研究の目的は、ビデオ中の音声と視覚ストリームの自然な共起を利用して、音声再構成(ビデオから音声)のためのクロスモーダル自己教師による事前学習の効果を検討することである。
本稿では,エンコーダ・デコーダアーキテクチャと位置認識型アテンション機構を組み合わせたLipSound2を提案する。
論文 参考訳(メタデータ) (2021-12-09T08:11:35Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Large-scale multilingual audio visual dubbing [31.43873011591989]
本稿では,大規模オーディオビジュアル翻訳とダビングのためのシステムについて述べる。
ソース言語の音声内容はテキストに書き起こされ、翻訳され、ターゲット言語音声に自動的に合成される。
視覚内容は、翻訳された音声と一致するように、話者の唇の動きを合成することにより変換される。
論文 参考訳(メタデータ) (2020-11-06T18:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。