論文の概要: Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario
- arxiv url: http://arxiv.org/abs/2005.10441v1
- Date: Thu, 21 May 2020 03:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 00:11:38.704428
- Title: Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario
- Title(参考訳): 限定データシナリオにおける言語間マルチスピーカー音声合成
- Authors: Zexin Cai, Yaogen Yang, Ming Li
- Abstract要約: 本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
- 参考スコア(独自算出の注目度): 10.779568857641928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling voices for multiple speakers and multiple languages in one
text-to-speech system has been a challenge for a long time. This paper presents
an extension on Tacotron2 to achieve bilingual multispeaker speech synthesis
when there are limited data for each language. We achieve cross-lingual
synthesis, including code-switching cases, between English and Mandarin for
monolingual speakers. The two languages share the same phonemic representations
for input, while the language attribute and the speaker identity are
independently controlled by language tokens and speaker embeddings,
respectively. In addition, we investigate the model's performance on the
cross-lingual synthesis, with and without a bilingual dataset during training.
With the bilingual dataset, not only can the model generate high-fidelity
speech for all speakers concerning the language they speak, but also can
generate accented, yet fluent and intelligible speech for monolingual speakers
regarding non-native language. For example, the Mandarin speaker can speak
English fluently. Furthermore, the model trained with bilingual dataset is
robust for code-switching text-to-speech, as shown in our results and provided
samples.{https://caizexin.github.io/mlms-syn-samples/index.html}.
- Abstract(参考訳): 複数の話者と複数の言語に対する音声を1つのテキスト音声システムでモデル化することは、長い間困難であった。
本稿では,各言語に限られたデータが存在する場合に,多言語多話者音声合成を実現するため,Tacotron2の拡張を提案する。
単言語話者のための英語とマンダリンの間で,コードスイッチケースを含む言語間合成を実現する。
2つの言語は入力のための同じ音韻表現を共有し、言語属性と話者アイデンティティはそれぞれ言語トークンと話者埋め込みによって独立に制御される。
さらに,訓練中のバイリンガルデータセットの有無に関わらず,クロスリンガル合成におけるモデルの性能について検討した。
バイリンガルデータセットでは、モデルが話す言語に関するすべての話者に対して高忠実なスピーチを生成できるだけでなく、非母国語言語に関する単言語話者のためのアクセント付き、しかし、流動的で知性に富んだスピーチを生成できる。
例えば、マンダリン話者は英語を話すことができる。
さらに、バイリンガルデータセットでトレーニングされたモデルは、結果に示すように、テキストから音声へのコード切り換えに堅牢であり、サンプルも提供しています。
https://caizexin.github.io/mlms-syn-samples/index.html}
関連論文リスト
- Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised
representations [27.157701195636477]
ParrotTTSは、モジュール化されたテキスト音声合成モデルである。
単一の話者からの書き起こしを使って、効果的にマルチスピーカーの変種を訓練することができる。
低リソース設定で新しい言語に適応し、自己管理バックボーンのトレーニング中に見えない言語に一般化する。
論文 参考訳(メタデータ) (2023-03-01T17:23:12Z) - Multilingual Multiaccented Multispeaker TTS with RADTTS [21.234787964238645]
RADTTSに基づく多言語・多言語・多話者音声合成モデルを提案する。
7つのアクセントからなるオープンソースデータセットにおいて、任意の話者に対して合成アクセントを制御する能力を示す。
論文 参考訳(メタデータ) (2023-01-24T22:39:04Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Towards Natural Bilingual and Code-Switched Speech Synthesis Based on
Mix of Monolingual Recordings and Cross-Lingual Voice Conversion [28.830575877307176]
両方の言語でネイティブレベルの流布を実現する話者からバイリンガルコーパスを得るのは容易ではない。
タコトロン2に基づく音声変換システムを用いて、マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。
得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
論文 参考訳(メタデータ) (2020-10-16T03:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。