論文の概要: Prosody Learning Mechanism for Speech Synthesis System Without Text
Length Limit
- arxiv url: http://arxiv.org/abs/2008.05656v1
- Date: Thu, 13 Aug 2020 02:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 23:39:37.299686
- Title: Prosody Learning Mechanism for Speech Synthesis System Without Text
Length Limit
- Title(参考訳): テキスト長制限のない音声合成システムのための韻律学習機構
- Authors: Zhen Zeng, Jianzong Wang, Ning Cheng, Jing Xiao
- Abstract要約: TTSシステムに基づく音声の韻律をモデル化するための韻律学習機構を提案する。
入力テキスト長の制限を解除するために,ローカルアテンションと呼ばれる新しい自己注意構造を提案する。
英語とマンダリンの実験から, より満足な韻律を持つ音声が得られたことが示唆された。
- 参考スコア(独自算出の注目度): 39.258370942013165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent neural speech synthesis systems have gradually focused on the control
of prosody to improve the quality of synthesized speech, but they rarely
consider the variability of prosody and the correlation between prosody and
semantics together. In this paper, a prosody learning mechanism is proposed to
model the prosody of speech based on TTS system, where the prosody information
of speech is extracted from the melspectrum by a prosody learner and combined
with the phoneme sequence to reconstruct the mel-spectrum. Meanwhile, the
sematic features of text from the pre-trained language model is introduced to
improve the prosody prediction results. In addition, a novel self-attention
structure, named as local attention, is proposed to lift this restriction of
input text length, where the relative position information of the sequence is
modeled by the relative position matrices so that the position encodings is no
longer needed. Experiments on English and Mandarin show that speech with more
satisfactory prosody has obtained in our model. Especially in Mandarin
synthesis, our proposed model outperforms baseline model with a MOS gap of
0.08, and the overall naturalness of the synthesized speech has been
significantly improved.
- Abstract(参考訳): 最近のニューラル音声合成システムは、合成音声の品質を向上させるために徐々に韻律の制御に焦点を合わせてきたが、韻律の変動性や韻律と意味論の相関を考えることは稀である。
本稿では,音声の韻律情報を韻律学習者によってメルスペクトラムから抽出し,音素列と組み合わせてメルスペクトラムを再構築する,ttsシステムに基づく音声の韻律をモデル化する韻律学習機構を提案する。
一方,事前学習された言語モデルからのテキストのセマティックな特徴を導入し,韻律予測結果を改善する。
また、位置符号化が不要となるように、シーケンスの相対的な位置情報を相対位置行列でモデル化する入力テキスト長の制限を緩和するために、局所的注意と呼ばれる新しい自己対応構造が提案されている。
英語とマンダリンの実験では, より満足な韻律を持つ音声が得られた。
特にマンダリン合成において,提案手法はMOSギャップ0.08のベースラインモデルより優れており,合成音声の全体的な自然性は大幅に改善されている。
関連論文リスト
- Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。
自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文 参考訳(メタデータ) (2024-07-18T13:42:38Z) - Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation [6.225927189801006]
本稿では,パジングパターンに関連する構文的手法と音響的手法の両方を包括的にモデル化する新しい枠組みを提案する。
注目に値することに、我々のフレームワークは、より拡張され複雑なドメイン外文(OOD)であっても、自然言語を一貫して生成する能力を持っている。
論文 参考訳(メタデータ) (2024-04-03T09:17:38Z) - A Discourse-level Multi-scale Prosodic Model for Fine-grained Emotion
Analysis [19.271542595753267]
本稿では、談話レベルのテキストから詳細な感情分析を行うための適切な韻律的特徴の予測について検討する。
本稿では,これらの2つの韻律的特徴を予測するために,多スケールテキストを利用したD-MPM(D-MPM)を提案する。
論文 参考訳(メタデータ) (2023-09-21T07:45:44Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文 参考訳(メタデータ) (2021-06-19T12:05:01Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。