論文の概要: Towards Natural Bilingual and Code-Switched Speech Synthesis Based on
Mix of Monolingual Recordings and Cross-Lingual Voice Conversion
- arxiv url: http://arxiv.org/abs/2010.08136v1
- Date: Fri, 16 Oct 2020 03:51:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 22:16:43.994704
- Title: Towards Natural Bilingual and Code-Switched Speech Synthesis Based on
Mix of Monolingual Recordings and Cross-Lingual Voice Conversion
- Title(参考訳): バイリンガル録音とクロスリンガル音声変換の混合に基づく自然言語・コードスイッチ音声合成に向けて
- Authors: Shengkui Zhao, Trung Hieu Nguyen, Hao Wang, Bin Ma
- Abstract要約: 両方の言語でネイティブレベルの流布を実現する話者からバイリンガルコーパスを得るのは容易ではない。
タコトロン2に基づく音声変換システムを用いて、マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。
得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
- 参考スコア(独自算出の注目度): 28.830575877307176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent state-of-the-art neural text-to-speech (TTS) synthesis models have
dramatically improved intelligibility and naturalness of generated speech from
text. However, building a good bilingual or code-switched TTS for a particular
voice is still a challenge. The main reason is that it is not easy to obtain a
bilingual corpus from a speaker who achieves native-level fluency in both
languages. In this paper, we explore the use of Mandarin speech recordings from
a Mandarin speaker, and English speech recordings from another English speaker
to build high-quality bilingual and code-switched TTS for both speakers. A
Tacotron2-based cross-lingual voice conversion system is employed to generate
the Mandarin speaker's English speech and the English speaker's Mandarin
speech, which show good naturalness and speaker similarity. The obtained
bilingual data are then augmented with code-switched utterances synthesized
using a Transformer model. With these data, three neural TTS models --
Tacotron2, Transformer and FastSpeech are applied for building bilingual and
code-switched TTS. Subjective evaluation results show that all the three
systems can produce (near-)native-level speech in both languages for each of
the speaker.
- Abstract(参考訳): 最近の最先端の音声合成モデルであるTTS(Neural Text-to-Speech)は、テキストから生成された音声の可知性と自然性を大幅に改善した。
しかし、特定の音声に対して優れたバイリンガルまたはコードスイッチトTTSを構築することは依然として課題である。
主な理由は、両方の言語でネイティブレベルフルーエンシーを達成する話者からバイリンガルコーパスを得ることが容易ではないためである。
本稿では、マンダリン話者からのマンダリン音声記録と、英語話者からの英語音声記録を用いて、双方の話者に対して高品質なバイリンガルおよびコードスイッチングTTSを構築する。
タコトロン2を母語とする言語間音声変換システムを用いて,マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。
得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
これらのデータを用いて、3つのニューラルTSモデル(Tacotron2、Transformer、FastSpeech)をバイリンガルおよびコードスイッチングTSの構築に適用する。
主観的評価の結果,3つのシステムはすべて,各話者に対して(ほぼ)ネイティブレベルの発話を両言語で生成できることがわかった。
関連論文リスト
- Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [56.933140743757555]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、ソースとターゲットの音声間のスタイル伝達を学習する上での課題となる。
本稿では,自己教師型モデルから独立した単位をベースとした音響言語モデルと,スタイル伝達のためのニューラルネットワークを用いたS2STフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - Textless Low-Resource Speech-to-Speech Translation With Unit Language
Models [56.1058530241461]
本稿では,テキストレス低音源音声合成システム(S2ST)を学習するための新しいフレームワークを提案する。
我々はS2STを単位から単位へのセク2セク翻訳タスクとして微調整し、大規模単言語音声データに対する事前学習から始める。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Improving Cross-lingual Speech Synthesis with Triplet Training Scheme [5.470211567548067]
言語間の発音を高めるために, トリプルト学習法を提案する。
提案手法は、合成した言語間音声の可知性と自然性の両方に顕著な改善をもたらす。
論文 参考訳(メタデータ) (2022-02-22T08:40:43Z) - Latent linguistic embedding for cross-lingual text-to-speech and voice
conversion [44.700803634034486]
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。
提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
論文 参考訳(メタデータ) (2020-10-08T01:25:07Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z) - Generating Multilingual Voices Using Speaker Space Translation Based on
Bilingual Speaker Data [15.114637085644057]
言語における合成音声のアクセントの度合いを制御するために,話者空間における単純な変換が利用できることを示す。
同じ変換を単言語話者にも適用することができる。
論文 参考訳(メタデータ) (2020-04-10T10:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。