論文の概要: Modeling Prosodic Phrasing with Multi-Task Learning in Tacotron-based
TTS
- arxiv url: http://arxiv.org/abs/2008.05284v1
- Date: Tue, 11 Aug 2020 07:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:12:23.778962
- Title: Modeling Prosodic Phrasing with Multi-Task Learning in Tacotron-based
TTS
- Title(参考訳): タコトロン型TSにおけるマルチタスク学習による韻律表現のモデル化
- Authors: Rui Liu, Berrak Sisman, Feilong Bao, Guanglai Gao and Haizhou Li
- Abstract要約: 本稿では,Tacotronに基づく音声合成フレームワークを拡張し,韻律句のブレークを明示的にモデル化する。
提案手法は中国語とモンゴル語の両方の音質を一貫して改善することを示す。
- 参考スコア(独自算出の注目度): 74.11899135025503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tacotron-based end-to-end speech synthesis has shown remarkable voice
quality. However, the rendering of prosody in the synthesized speech remains to
be improved, especially for long sentences, where prosodic phrasing errors can
occur frequently. In this paper, we extend the Tacotron-based speech synthesis
framework to explicitly model the prosodic phrase breaks. We propose a
multi-task learning scheme for Tacotron training, that optimizes the system to
predict both Mel spectrum and phrase breaks. To our best knowledge, this is the
first implementation of multi-task learning for Tacotron based TTS with a
prosodic phrasing model. Experiments show that our proposed training scheme
consistently improves the voice quality for both Chinese and Mongolian systems.
- Abstract(参考訳): tacotronベースのエンドツーエンド音声合成は素晴らしい音声品質を示している。
しかし、合成音声における韻律のレンダリングは、特に韻律的なフレーズ誤りが頻発する長文に対して改善され続けている。
本稿では,タコトロンに基づく音声合成フレームワークを拡張し,韻律句の破れを明示的にモデル化する。
本研究では,メルスペクトルとフレーズブレークの両方を予測するために,タコトロン学習のためのマルチタスク学習手法を提案する。
我々の知る限り、これはTacotronベースのTSに対して、韻律的フレーズモデルを用いたマルチタスク学習の最初の実装である。
提案手法は,中国語とモンゴル語の音声品質を一貫して向上させることを示す。
関連論文リスト
- MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Scalable Multilingual Frontend for TTS [4.1203601403593275]
本稿では、多くの言語に対応し、新しい言語に容易に拡張可能な、ニューラルテキスト・トゥ・スペーチ(TTS)フロントエンド作成の進捗について述べる。
文レベルでの正規化と発音の両方をS2S(Sequence-to-Sequence)モデルを用いて構築し,モデル化する。
言語に依存しない発音アプローチでは、辞書は使用しません。代わりに、文脈ベースの発音を含む全ての発音がS2Sモデルでキャプチャされます。
論文 参考訳(メタデータ) (2020-04-10T08:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。