論文の概要: Towards Natural Bilingual and Code-Switched Speech Synthesis Based on
Mix of Monolingual Recordings and Cross-Lingual Voice Conversion
- arxiv url: http://arxiv.org/abs/2010.08136v1
- Date: Fri, 16 Oct 2020 03:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 22:16:43.994704
- Title: Towards Natural Bilingual and Code-Switched Speech Synthesis Based on
Mix of Monolingual Recordings and Cross-Lingual Voice Conversion
- Title(参考訳): バイリンガル録音とクロスリンガル音声変換の混合に基づく自然言語・コードスイッチ音声合成に向けて
- Authors: Shengkui Zhao, Trung Hieu Nguyen, Hao Wang, Bin Ma
- Abstract要約: 両方の言語でネイティブレベルの流布を実現する話者からバイリンガルコーパスを得るのは容易ではない。
タコトロン2に基づく音声変換システムを用いて、マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。
得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
- 参考スコア(独自算出の注目度): 28.830575877307176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent state-of-the-art neural text-to-speech (TTS) synthesis models have
dramatically improved intelligibility and naturalness of generated speech from
text. However, building a good bilingual or code-switched TTS for a particular
voice is still a challenge. The main reason is that it is not easy to obtain a
bilingual corpus from a speaker who achieves native-level fluency in both
languages. In this paper, we explore the use of Mandarin speech recordings from
a Mandarin speaker, and English speech recordings from another English speaker
to build high-quality bilingual and code-switched TTS for both speakers. A
Tacotron2-based cross-lingual voice conversion system is employed to generate
the Mandarin speaker's English speech and the English speaker's Mandarin
speech, which show good naturalness and speaker similarity. The obtained
bilingual data are then augmented with code-switched utterances synthesized
using a Transformer model. With these data, three neural TTS models --
Tacotron2, Transformer and FastSpeech are applied for building bilingual and
code-switched TTS. Subjective evaluation results show that all the three
systems can produce (near-)native-level speech in both languages for each of
the speaker.
- Abstract(参考訳): 最近の最先端の音声合成モデルであるTTS(Neural Text-to-Speech)は、テキストから生成された音声の可知性と自然性を大幅に改善した。
しかし、特定の音声に対して優れたバイリンガルまたはコードスイッチトTTSを構築することは依然として課題である。
主な理由は、両方の言語でネイティブレベルフルーエンシーを達成する話者からバイリンガルコーパスを得ることが容易ではないためである。
本稿では、マンダリン話者からのマンダリン音声記録と、英語話者からの英語音声記録を用いて、双方の話者に対して高品質なバイリンガルおよびコードスイッチングTTSを構築する。
タコトロン2を母語とする言語間音声変換システムを用いて,マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。
得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
これらのデータを用いて、3つのニューラルTSモデル(Tacotron2、Transformer、FastSpeech)をバイリンガルおよびコードスイッチングTSの構築に適用する。
主観的評価の結果,3つのシステムはすべて,各話者に対して(ほぼ)ネイティブレベルの発話を両言語で生成できることがわかった。
関連論文リスト
- MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。
目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-08-08T18:12:51Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Latent linguistic embedding for cross-lingual text-to-speech and voice
conversion [44.700803634034486]
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。
提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
論文 参考訳(メタデータ) (2020-10-08T01:25:07Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z) - Generating Multilingual Voices Using Speaker Space Translation Based on
Bilingual Speaker Data [15.114637085644057]
言語における合成音声のアクセントの度合いを制御するために,話者空間における単純な変換が利用できることを示す。
同じ変換を単言語話者にも適用することができる。
論文 参考訳(メタデータ) (2020-04-10T10:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。