論文の概要: ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech
- arxiv url: http://arxiv.org/abs/2211.03545v1
- Date: Mon, 7 Nov 2022 13:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 18:25:44.258587
- Title: ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech
- Title(参考訳): ERNIE-SAT:多言語多話者音声合成のための音声・テキスト共同学習
- Authors: Xiaoran Fan, Chao Pang, Tian Yuan, He Bai, Renjie Zheng, Pengfei Zhu,
Shuohuan Wang, Junkun Chen, Zeyu Chen, Liang Huang, Yu Sun, Hua Wu
- Abstract要約: 言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 58.93395189153713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech representation learning has improved both speech understanding and
speech synthesis tasks for single language. However, its ability in
cross-lingual scenarios has not been explored. In this paper, we extend the
pretraining method for cross-lingual multi-speaker speech synthesis tasks,
including cross-lingual multi-speaker voice cloning and cross-lingual
multi-speaker speech editing. We propose a speech-text joint pretraining
framework, where we randomly mask the spectrogram and the phonemes given a
speech example and its transcription. By learning to reconstruct the masked
parts of the input in different languages, our model shows great improvements
over speaker-embedding-based multi-speaker TTS methods. Moreover, our framework
is end-to-end for both the training and the inference without any finetuning
effort. In cross-lingual multi-speaker voice cloning and cross-lingual
multi-speaker speech editing tasks, our experiments show that our model
outperforms speaker-embedding-based multi-speaker TTS methods. The code and
model are publicly available at PaddleSpeech.
- Abstract(参考訳): 音声表現学習は、単一言語における音声理解と音声合成の両タスクを改善した。
しかし、言語間シナリオにおけるその能力は検討されていない。
本稿では,言語間複数話者音声クローニングと言語間複数話者音声編集を含む,言語間複数話者音声合成タスクの事前学習手法を拡張する。
本稿では,音声の例と書き起こしが与えられたスペクトルと音素をランダムにマスキングする,音声-テキスト共同事前学習フレームワークを提案する。
入力のマスキング部分を異なる言語で再構築する方法を学習することで,話者埋め込み型マルチスピーカーtts法よりも優れた改善が得られた。
さらに、当社のフレームワークは、トレーニングと推論の両方に対して、微調整の必要なくエンドツーエンドです。
クロスリンガル・マルチスピーカー音声クローニングおよびクロスリンガル・マルチスピーカー音声編集タスクにおいて,本モデルが話者埋め込み型マルチスピーカーtts法よりも優れていることを示す。
コードとモデルはPaddleSpeechで公開されている。
関連論文リスト
- Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised
representations [27.157701195636477]
ParrotTTSは、モジュール化されたテキスト音声合成モデルである。
単一の話者からの書き起こしを使って、効果的にマルチスピーカーの変種を訓練することができる。
低リソース設定で新しい言語に適応し、自己管理バックボーンのトレーニング中に見えない言語に一般化する。
論文 参考訳(メタデータ) (2023-03-01T17:23:12Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Cross-Lingual Text-to-Speech Using Multi-Task Learning and Speaker
Classifier Joint Training [6.256271702518489]
言語間音声合成では、モノグロット話者に対して様々な言語の音声を合成することができる。
本稿では,言語間話者類似性を改善するためのマルチタスク学習フレームワークについて検討する。
論文 参考訳(メタデータ) (2022-01-20T12:02:58Z) - Improve Cross-lingual Voice Cloning Using Low-quality Code-switched Data [11.18504333789534]
そこで本研究では,非対象話者からの低品質なコード切替データを用いて,対象話者に対する言語間音声のクローニングを実現することを提案する。
実験により,提案手法は,自然性と話者の整合性の両面から,目標音声における高品質なコードスイッチ音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2021-10-14T08:16:06Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。