論文の概要: Improving multi-speaker TTS prosody variance with a residual encoder and
normalizing flows
- arxiv url: http://arxiv.org/abs/2106.05762v1
- Date: Thu, 10 Jun 2021 14:08:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-12 10:50:08.014091
- Title: Improving multi-speaker TTS prosody variance with a residual encoder and
normalizing flows
- Title(参考訳): 残留エンコーダと正規化流れによるマルチスピーカーtts韻律分散の改善
- Authors: Iv\'an Vall\'es-P\'erez, Julian Roth, Grzegorz Beringer, Roberto
Barra-Chicote, Jasha Droppo
- Abstract要約: 話者IDと韻律のアンタングル化は、自然性を改善し、より可変な合成を生成するために、テキストから音声へのシステムにおいて不可欠である。
本稿では,流れ正規化話者埋め込みにTacotron2のようなアーキテクチャを適用し,絡み合う問題にアプローチする新しいニューラルテキスト音声合成モデルを提案する。
- 参考スコア(独自算出の注目度): 9.515272632173884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-speech systems recently achieved almost indistinguishable quality
from human speech. However, the prosody of those systems is generally flatter
than natural speech, producing samples with low expressiveness. Disentanglement
of speaker id and prosody is crucial in text-to-speech systems to improve on
naturalness and produce more variable syntheses. This paper proposes a new
neural text-to-speech model that approaches the disentanglement problem by
conditioning a Tacotron2-like architecture on flow-normalized speaker
embeddings, and by substituting the reference encoder with a new learned latent
distribution responsible for modeling the intra-sentence variability due to the
prosody. By removing the reference encoder dependency, the speaker-leakage
problem typically happening in this kind of systems disappears, producing more
distinctive syntheses at inference time. The new model achieves significantly
higher prosody variance than the baseline in a set of quantitative prosody
features, as well as higher speaker distinctiveness, without decreasing the
speaker intelligibility. Finally, we observe that the normalized speaker
embeddings enable much richer speaker interpolations, substantially improving
the distinctiveness of the new interpolated speakers.
- Abstract(参考訳): テキスト対音声システムは最近、人間の発話とほとんど区別がつかない品質を達成した。
しかし、それらのシステムの韻律は一般に自然発声よりも平坦であり、表現力の低いサンプルを生成する。
自然性を改善し、より可変的な合成を生成するために、テキスト対音声システムでは話者idと韻律の絡み合いが不可欠である。
本稿では,フロー正規化話者埋め込みにTacotron2のようなアーキテクチャを条件付け,韻律による文内変動をモデル化する新たな学習潜時分布を基準エンコーダに置き換えることで,絡み合う問題にアプローチする新しいニューラルテキスト音声合成モデルを提案する。
参照エンコーダの依存性を取り除くことで、この種のシステムで発生する話者推論問題は消失し、推論時により独特な合成が生成される。
新しいモデルでは, 話者の明瞭度を低下させることなく, 数量的韻律特徴のセットにおいて, ベースラインよりもはるかに高い韻律分散を実現する。
最後に、正規化話者埋め込みにより、よりリッチな話者補間が可能となり、新しい補間話者の特異性を大幅に向上する。
関連論文リスト
- CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with
Disentangled Representations [12.388567657230116]
一般化可能なゼロショット話者適応音声変換モデルを提案する。
GZS-TVは、話者埋め込み抽出と音色変換のための不整合表現学習を導入した。
実験により、GZS-TVは、目に見えない話者の性能劣化を低減し、複数のデータセットで全てのベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T18:13:10Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Speaker Adaption with Intuitive Prosodic Features for Statistical
Parametric Speech Synthesis [50.5027550591763]
統計的パラメトリック音声合成のための直感的な韻律特徴を持つ話者適応法を提案する。
直感的な韻律的特徴は発話レベルまたは話者レベルで抽出され、それぞれ既存の話者エンコーディングベースおよび話者エンベディングベース適応フレームワークに統合される。
論文 参考訳(メタデータ) (2022-03-02T09:00:31Z) - Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention [0.0]
本稿では,数秒間の参照音声からターゲット音声を再生可能な,注意に基づく音声合成システムを提案する。
長期発話への一般化は、ダイナミック・コンボリューション・アテンション(Dynamic Convolution Attention)と呼ばれるエネルギーベースのアテンション機構を用いて実現される。
音声の自然性、話者の類似性、アライメントの整合性、長い発話を合成する能力などの観点から、音声クローニングシステムの実装を比較した。
論文 参考訳(メタデータ) (2022-01-25T15:06:07Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - Continual Speaker Adaptation for Text-to-Speech Synthesis [2.3224617218247126]
本稿では,連続学習の観点からのTSモデリングについて考察する。
目標は、以前のスピーカーを忘れずに新しいスピーカーを追加することです。
経験リプレイと重みの規則化という2つのよく知られた手法を連続学習に活用する。
論文 参考訳(メタデータ) (2021-03-26T15:14:20Z) - Prosody Learning Mechanism for Speech Synthesis System Without Text
Length Limit [39.258370942013165]
TTSシステムに基づく音声の韻律をモデル化するための韻律学習機構を提案する。
入力テキスト長の制限を解除するために,ローカルアテンションと呼ばれる新しい自己注意構造を提案する。
英語とマンダリンの実験から, より満足な韻律を持つ音声が得られたことが示唆された。
論文 参考訳(メタデータ) (2020-08-13T02:54:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。