論文の概要: ParaTTS: Learning Linguistic and Prosodic Cross-sentence Information in
Paragraph-based TTS
- arxiv url: http://arxiv.org/abs/2209.06484v1
- Date: Wed, 14 Sep 2022 08:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:49:04.777796
- Title: ParaTTS: Learning Linguistic and Prosodic Cross-sentence Information in
Paragraph-based TTS
- Title(参考訳): ParaTTS:Paragraph-based TTSにおける言語・韻律横断情報学習
- Authors: Liumeng Xue, Frank K. Soong, Shaofei Zhang, Lei Xie
- Abstract要約: 本稿では, 言語情報と韻律情報を, クロス文, 組込み構造を考慮した訓練によりモデル化することを提案する。
マンダリン系女性話者が記録した物語のオーディオブックコーパス(4.08時間)を訓練した。
提案したTSモデルは,比較的自然で高品質な音声節を生成できることを示す。
- 参考スコア(独自算出の注目度): 19.988974534582205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in neural end-to-end TTS models have shown high-quality,
natural synthesized speech in a conventional sentence-based TTS. However, it is
still challenging to reproduce similar high quality when a whole paragraph is
considered in TTS, where a large amount of contextual information needs to be
considered in building a paragraph-based TTS model. To alleviate the difficulty
in training, we propose to model linguistic and prosodic information by
considering cross-sentence, embedded structure in training. Three sub-modules,
including linguistics-aware, prosody-aware and sentence-position networks, are
trained together with a modified Tacotron2. Specifically, to learn the
information embedded in a paragraph and the relations among the corresponding
component sentences, we utilize linguistics-aware and prosody-aware networks.
The information in a paragraph is captured by encoders and the inter-sentence
information in a paragraph is learned with multi-head attention mechanisms. The
relative sentence position in a paragraph is explicitly exploited by a
sentence-position network. Trained on a storytelling audio-book corpus (4.08
hours), recorded by a female Mandarin Chinese speaker, the proposed TTS model
demonstrates that it can produce rather natural and good-quality speech
paragraph-wise. The cross-sentence contextual information, such as break and
prosodic variations between consecutive sentences, can be better predicted and
rendered than the sentence-based model. Tested on paragraph texts, of which the
lengths are similar to, longer than, or much longer than the typical paragraph
length of the training data, the TTS speech produced by the new model is
consistently preferred over the sentence-based model in subjective tests and
confirmed in objective measures.
- Abstract(参考訳): ニューラルエンド・ツー・エンドTSモデルの最近の進歩は、従来の文ベースTSにおいて高品質で自然な合成音声を示している。
しかし, TTSモデルを構築する際には, 大量の文脈情報を考慮する必要があるTTSにおいて, 同様に高い品質を再現することは依然として困難である。
学習の難易度を緩和するために,訓練におけるクロスセンテンス,組込み構造を考慮した言語情報および韻律情報のモデル化を提案する。
言語学認識、韻律認識、文配置ネットワークを含む3つのサブモジュールがタコトロン2の修正と共に訓練される。
具体的には,段落に埋め込まれた情報と対応する文間の関係を学習するために,言語認識ネットワークと韻律認識ネットワークを利用する。
段落内の情報はエンコーダによってキャプチャされ、段落内の相互情報には多元的注意機構を用いて学習される。
段落内の相対的な文位置は、文位置ネットワークによって明示的に悪用される。
マンダリン系女性話者が記録したストーリーテリング音声ブックコーパス(4.08時間)で学習し、提案したTSモデルは、かなり自然で良質な音声節を生産できることを実証する。
連続文間のブレークや韻律の変動といったクロスセンテンス文脈情報は、文ベースモデルよりも予測やレンダリングが容易である。
訓練データの典型的段落長よりも長さが長く長い段落テキストでテストした場合、主観的テストにおいて、新しいモデルによって生成されたtts音声は、文ベースモデルよりも一貫して好まれ、客観的な尺度で確認される。
関連論文リスト
- Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT [29.167336994990542]
クロス・ディレクト・テキスト・トゥ・スペーチ(CD-TTS)は、非ネイティブ方言における学習された話者の声を合成するタスクである。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:40:27Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Guided-TTS:Text-to-Speech with Untranscribed Speech [22.548875263927396]
我々は、未転写音声データから音声を生成することを学習する高品質TTSモデルである Guided-TTS を提案する。
音声合成において,無条件DDPMの生成過程を音素分類を用いて導き,メル-スペクトログラムを生成する。
論文 参考訳(メタデータ) (2021-11-23T10:05:05Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Learning Speaker Embedding from Text-to-Speech [59.80309164404974]
我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを,自己指導型で共同で訓練した。
本研究は,手書き文字とASR書き起こし文字のトレーニングについて検討した。
教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06%改善した。
論文 参考訳(メタデータ) (2020-10-21T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。