論文の概要: SANE-TTS: Stable And Natural End-to-End Multilingual Text-to-Speech
- arxiv url: http://arxiv.org/abs/2206.12132v1
- Date: Fri, 24 Jun 2022 07:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 14:20:32.032128
- Title: SANE-TTS: Stable And Natural End-to-End Multilingual Text-to-Speech
- Title(参考訳): SANE-TTS: 安定的で自然な多言語テキスト合成
- Authors: Hyunjae Cho, Wonbin Jung, Junhyeok Lee, Sang Hoon Woo
- Abstract要約: SANE-TTS は安定かつ自然な多言語 TTS モデルである。
言語間合成における音声自然性を改善する話者正規化損失を導入する。
本モデルでは, 音源話者によらず, 適度なリズムの音声を生成する。
- 参考スコア(独自算出の注目度): 0.3277163122167433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present SANE-TTS, a stable and natural end-to-end
multilingual TTS model. By the difficulty of obtaining multilingual corpus for
given speaker, training multilingual TTS model with monolingual corpora is
unavoidable. We introduce speaker regularization loss that improves speech
naturalness during cross-lingual synthesis as well as domain adversarial
training, which is applied in other multilingual TTS models. Furthermore, by
adding speaker regularization loss, replacing speaker embedding with zero
vector in duration predictor stabilizes cross-lingual inference. With this
replacement, our model generates speeches with moderate rhythm regardless of
source speaker in cross-lingual synthesis. In MOS evaluation, SANE-TTS achieves
naturalness score above 3.80 both in cross-lingual and intralingual synthesis,
where the ground truth score is 3.99. Also, SANE-TTS maintains speaker
similarity close to that of ground truth even in cross-lingual inference. Audio
samples are available on our web page.
- Abstract(参考訳): 本稿では,安定かつ自然な多言語TTSモデルであるSANE-TTSを提案する。
話者の多言語コーパスを得るのが難しいため、単言語コーパスを用いた多言語TSモデルを訓練することは避けられない。
言語間合成における音声の自然性を改善する話者正規化損失と、他の多言語TSモデルに適用したドメイン対逆訓練を導入する。
さらに、話者正規化損失を追加することで、話者埋め込みを時間予測器でゼロベクトルに置き換えることで、言語間推論を安定化する。
この置き換えにより,言語間合成における音源話者によらず,適度なリズムの音声を生成する。
MOS評価では、SANE-TTSは言語間合成と言語内合成の両方において3.80以上の自然度スコアを達成する。
SANE-TTSは、言語間推論においても、基底真理に近い話者類似性を維持する。
オーディオサンプルは私たちのWebページにある。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech [30.110058338155675]
話者の音色を正確に保持することが難しいため,言語間テキスト合成 (CTTS) はまだ満足できない。
そこで本研究では,CTTS のための新しい2元話者埋め込み TTS (DSE-TTS) フレームワークを提案する。
両方の埋め込みを組み合わせることで、DSE-TTSは言語間合成において最先端のSANE-TTSよりも著しく優れる。
論文 参考訳(メタデータ) (2023-06-25T06:46:36Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised
representations [27.157701195636477]
ParrotTTSは、モジュール化されたテキスト音声合成モデルである。
単一の話者からの書き起こしを使って、効果的にマルチスピーカーの変種を訓練することができる。
低リソース設定で新しい言語に適応し、自己管理バックボーンのトレーニング中に見えない言語に一般化する。
論文 参考訳(メタデータ) (2023-03-01T17:23:12Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z) - Improving Cross-lingual Speech Synthesis with Triplet Training Scheme [5.470211567548067]
言語間の発音を高めるために, トリプルト学習法を提案する。
提案手法は、合成した言語間音声の可知性と自然性の両方に顕著な改善をもたらす。
論文 参考訳(メタデータ) (2022-02-22T08:40:43Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。