Fugu-MT 論文翻訳(概要): Talking Face Generation with Multilingual TTS

論文の概要: Talking Face Generation with Multilingual TTS

arxiv url: http://arxiv.org/abs/2205.06421v1
Date: Fri, 13 May 2022 02:08:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-16 12:35:59.395535
Title: Talking Face Generation with Multilingual TTS
Title（参考訳）: 多言語ttsによる発話顔生成
Authors: Hyoung-Kyu Song, Sang Hoon Woo, Junhyeok Lee, Seungmin Yang, Hyunjae Cho, Youseong Lee, Dongho Choi, Kang-wook Kim
Abstract要約: 音声合成システムと音声合成システムを組み合わせたシステムを提案する。本システムは,話者の発声性を保ちながら,自然な多言語音声を合成することができる。デモでは、事前処理ステージに翻訳APIを追加して、ニューラルダバーの形式で提示しています。
参考スコア（独自算出の注目度）: 0.8229645116651871
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we propose a joint system combining a talking face generation system with a text-to-speech system that can generate multilingual talking face videos from only the text input. Our system can synthesize natural multilingual speeches while maintaining the vocal identity of the speaker, as well as lip movements synchronized to the synthesized speech. We demonstrate the generalization capabilities of our system by selecting four languages (Korean, English, Japanese, and Chinese) each from a different language family. We also compare the outputs of our talking face generation model to outputs of a prior work that claims multilingual support. For our demo, we add a translation API to the preprocessing stage and present it in the form of a neural dubber so that users can utilize the multilingual property of our system more easily.
Abstract（参考訳）: 本研究では,テキスト入力のみから多言語会話音声を生成できる音声合成システムと音声合成システムを組み合わせた共同システムを提案する。本システムでは, 音声の同一性を維持しつつ, 自然な多言語音声を合成でき, 合成音声に同期した唇の動きも維持できる。我々は,異なる言語族から4つの言語(韓国語,英語,日本語,中国語)を選択することで,システムの一般化能力を実証する。また、話し顔生成モデルの出力と、多言語サポートを主張する以前の作業の出力を比較する。デモでは、前処理ステージに翻訳apiを追加して、ニューラルネットワークのドバ形式で提示することで、ユーザがシステムの多言語特性をより簡単に利用できるようにしました。

関連論文リスト

CrossSpeech++: Cross-lingual Speech Synthesis with Decoupled Language and Speaker Generation [25.82932373649325]
CrossSpeech++は、言語と話者情報をアンタングルする方法である。これにより、言語間音声合成の品質が大幅に向上する。さまざまなメトリクスを使って広範な実験を行い、CrossSpeech++が大幅な改善を実現していることを示す。
論文参考訳（メタデータ） (2024-12-28T06:32:49Z)
VQTalker: Towards Multilingual Talking Avatars through Facial Motion Tokenization [20.728919218746363]
VQTalkerは、ベクトル量子化に基づく多言語音声ヘッド生成フレームワークである。我々のアプローチは、人間の発話は有限個の異なる音の単位からなるという音素原理に基づいている。 VQTalkerは、ビデオ駆動と音声駆動の両方のシナリオで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-13T06:14:57Z)
Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。 SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文参考訳（メタデータ） (2023-12-08T17:18:42Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文参考訳（メタデータ） (2023-06-05T15:53:15Z)
MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文参考訳（メタデータ） (2023-05-19T13:43:36Z)
Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。 VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文参考訳（メタデータ） (2023-03-07T14:31:55Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
Towards Automatic Face-to-Face Translation [30.841020484914527]
「顔から顔への翻訳」は、言語Aで話す人の映像をリアルな唇同期を持つ対象言語Bに翻訳することができる。我々は,音声と言語から既存の複数のモジュールをまとめて,音声から音声への翻訳を行うシステムを構築した。そこで我々は,翻訳音声から現実的な発話顔を生成するための新しいビジュアルモジュールLipGANを組み込むことで,「顔から顔への翻訳」を目指す。
論文参考訳（メタデータ） (2020-03-01T06:42:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。