論文の概要: Prosody Learning Mechanism for Speech Synthesis System Without Text
Length Limit
- arxiv url: http://arxiv.org/abs/2008.05656v1
- Date: Thu, 13 Aug 2020 02:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 23:39:37.299686
- Title: Prosody Learning Mechanism for Speech Synthesis System Without Text
Length Limit
- Title(参考訳): テキスト長制限のない音声合成システムのための韻律学習機構
- Authors: Zhen Zeng, Jianzong Wang, Ning Cheng, Jing Xiao
- Abstract要約: TTSシステムに基づく音声の韻律をモデル化するための韻律学習機構を提案する。
入力テキスト長の制限を解除するために,ローカルアテンションと呼ばれる新しい自己注意構造を提案する。
英語とマンダリンの実験から, より満足な韻律を持つ音声が得られたことが示唆された。
- 参考スコア(独自算出の注目度): 39.258370942013165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent neural speech synthesis systems have gradually focused on the control
of prosody to improve the quality of synthesized speech, but they rarely
consider the variability of prosody and the correlation between prosody and
semantics together. In this paper, a prosody learning mechanism is proposed to
model the prosody of speech based on TTS system, where the prosody information
of speech is extracted from the melspectrum by a prosody learner and combined
with the phoneme sequence to reconstruct the mel-spectrum. Meanwhile, the
sematic features of text from the pre-trained language model is introduced to
improve the prosody prediction results. In addition, a novel self-attention
structure, named as local attention, is proposed to lift this restriction of
input text length, where the relative position information of the sequence is
modeled by the relative position matrices so that the position encodings is no
longer needed. Experiments on English and Mandarin show that speech with more
satisfactory prosody has obtained in our model. Especially in Mandarin
synthesis, our proposed model outperforms baseline model with a MOS gap of
0.08, and the overall naturalness of the synthesized speech has been
significantly improved.
- Abstract(参考訳): 最近のニューラル音声合成システムは、合成音声の品質を向上させるために徐々に韻律の制御に焦点を合わせてきたが、韻律の変動性や韻律と意味論の相関を考えることは稀である。
本稿では,音声の韻律情報を韻律学習者によってメルスペクトラムから抽出し,音素列と組み合わせてメルスペクトラムを再構築する,ttsシステムに基づく音声の韻律をモデル化する韻律学習機構を提案する。
一方,事前学習された言語モデルからのテキストのセマティックな特徴を導入し,韻律予測結果を改善する。
また、位置符号化が不要となるように、シーケンスの相対的な位置情報を相対位置行列でモデル化する入力テキスト長の制限を緩和するために、局所的注意と呼ばれる新しい自己対応構造が提案されている。
英語とマンダリンの実験では, より満足な韻律を持つ音声が得られた。
特にマンダリン合成において,提案手法はMOSギャップ0.08のベースラインモデルより優れており,合成音声の全体的な自然性は大幅に改善されている。
関連論文リスト
- A Discourse-level Multi-scale Prosodic Model for Fine-grained Emotion
Analysis [19.271542595753267]
本稿では、談話レベルのテキストから詳細な感情分析を行うための適切な韻律的特徴の予測について検討する。
本稿では,これらの2つの韻律的特徴を予測するために,多スケールテキストを利用したD-MPM(D-MPM)を提案する。
論文 参考訳(メタデータ) (2023-09-21T07:45:44Z) - Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of
SSWP [13.370813866319669]
本稿では,2段階自動アノテーションパイプラインを提案する。
第1段階では,音声文と単語句読解(SSWP)ペアのコントラッシブ・テキスト・プレトレーニングを提案する。
第2段階では、事前訓練されたエンコーダで構成されるマルチモーダル・プロソディアノテータを構築し、単純で効果的なテキスト音声特徴融合方式を提案する。
論文 参考訳(メタデータ) (2023-09-11T12:50:28Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文 参考訳(メタデータ) (2021-06-19T12:05:01Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。