Fugu-MT 論文翻訳(概要): Prosody Learning Mechanism for Speech Synthesis System Without Text Length Limit

論文の概要: Prosody Learning Mechanism for Speech Synthesis System Without Text Length Limit

arxiv url: http://arxiv.org/abs/2008.05656v1
Date: Thu, 13 Aug 2020 02:54:50 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-30 23:39:37.299686
Title: Prosody Learning Mechanism for Speech Synthesis System Without Text Length Limit
Title（参考訳）: テキスト長制限のない音声合成システムのための韻律学習機構
Authors: Zhen Zeng, Jianzong Wang, Ning Cheng, Jing Xiao
Abstract要約: TTSシステムに基づく音声の韻律をモデル化するための韻律学習機構を提案する。入力テキスト長の制限を解除するために,ローカルアテンションと呼ばれる新しい自己注意構造を提案する。英語とマンダリンの実験から, より満足な韻律を持つ音声が得られたことが示唆された。
参考スコア（独自算出の注目度）: 39.258370942013165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent neural speech synthesis systems have gradually focused on the control of prosody to improve the quality of synthesized speech, but they rarely consider the variability of prosody and the correlation between prosody and semantics together. In this paper, a prosody learning mechanism is proposed to model the prosody of speech based on TTS system, where the prosody information of speech is extracted from the melspectrum by a prosody learner and combined with the phoneme sequence to reconstruct the mel-spectrum. Meanwhile, the sematic features of text from the pre-trained language model is introduced to improve the prosody prediction results. In addition, a novel self-attention structure, named as local attention, is proposed to lift this restriction of input text length, where the relative position information of the sequence is modeled by the relative position matrices so that the position encodings is no longer needed. Experiments on English and Mandarin show that speech with more satisfactory prosody has obtained in our model. Especially in Mandarin synthesis, our proposed model outperforms baseline model with a MOS gap of 0.08, and the overall naturalness of the synthesized speech has been significantly improved.
Abstract（参考訳）: 最近のニューラル音声合成システムは、合成音声の品質を向上させるために徐々に韻律の制御に焦点を合わせてきたが、韻律の変動性や韻律と意味論の相関を考えることは稀である。本稿では,音声の韻律情報を韻律学習者によってメルスペクトラムから抽出し,音素列と組み合わせてメルスペクトラムを再構築する,ttsシステムに基づく音声の韻律をモデル化する韻律学習機構を提案する。一方,事前学習された言語モデルからのテキストのセマティックな特徴を導入し,韻律予測結果を改善する。また、位置符号化が不要となるように、シーケンスの相対的な位置情報を相対位置行列でモデル化する入力テキスト長の制限を緩和するために、局所的注意と呼ばれる新しい自己対応構造が提案されている。英語とマンダリンの実験では, より満足な韻律を持つ音声が得られた。特にマンダリン合成において,提案手法はMOSギャップ0.08のベースラインモデルより優れており,合成音声の全体的な自然性は大幅に改善されている。

関連論文リスト

The Impact of Prosodic Segmentation on Speech Synthesis of Spontaneous Speech [2.9762955286006965]
韻律的セグメンテーションによる訓練は、より分かりやすく、音響的に自然な音声を生み出した。将来の研究をサポートするため、すべてのデータセット、ソースコード、訓練されたモデルはCC BY-NC-ND 4.0ライセンスの下で公開されている。
論文参考訳（メタデータ） (2025-11-06T14:49:06Z)
DiFlow-TTS: Discrete Flow Matching with Factorized Speech Tokens for Low-Latency Zero-Shot Text-To-Speech [8.537791317883576]
Zero-shot Text-to-Speech (TTS) は、短い参照サンプルのみを用いて、目に見えない話者の声を模倣する高品質な音声を合成することを目的としている。言語モデル,拡散,フローマッチングに基づく最近のアプローチは,ゼロショットTSにおいて有望な結果を示しているが,それでも遅い推論と繰り返しアーティファクトに悩まされている。音声合成のための純粋離散フローマッチングを探索する最初のモデルであるDiFlow-TTSを紹介する。
論文参考訳（メタデータ） (2025-09-11T17:16:52Z)
Developmental Predictive Coding Model for Early Infancy Mono and Bilingual Vocal Continual Learning [69.8008228833895]
本稿では,連続学習機構を備えた小型生成ニューラルネットワークを提案する。我々のモデルは解釈可能性を重視し,オンライン学習の利点を実証する。
論文参考訳（メタデータ） (2024-12-23T10:23:47Z)
Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文参考訳（メタデータ） (2024-07-18T13:42:38Z)
Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation [6.225927189801006]
本稿では,パジングパターンに関連する構文的手法と音響的手法の両方を包括的にモデル化する新しい枠組みを提案する。注目に値することに、我々のフレームワークは、より拡張され複雑なドメイン外文(OOD)であっても、自然言語を一貫して生成する能力を持っている。
論文参考訳（メタデータ） (2024-04-03T09:17:38Z)
A Discourse-level Multi-scale Prosodic Model for Fine-grained Emotion Analysis [19.271542595753267]
本稿では、談話レベルのテキストから詳細な感情分析を行うための適切な韻律的特徴の予測について検討する。本稿では,これらの2つの韻律的特徴を予測するために,多スケールテキストを利用したD-MPM(D-MPM)を提案する。
論文参考訳（メタデータ） (2023-09-21T07:45:44Z)
A unified one-shot prosody and speaker conversion system with self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文参考訳（メタデータ） (2022-11-12T00:54:09Z)
Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文参考訳（メタデータ） (2021-12-17T08:35:40Z)
Advances in Speech Vocoding for Text-to-Speech with Continuous Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文参考訳（メタデータ） (2021-06-19T12:05:01Z)
Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文参考訳（メタデータ） (2021-06-15T18:03:48Z)
Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文参考訳（メタデータ） (2020-11-12T16:16:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。