論文の概要: Hierarchical prosody modeling and control in non-autoregressive parallel
neural TTS
- arxiv url: http://arxiv.org/abs/2110.02952v1
- Date: Wed, 6 Oct 2021 17:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:21:36.391677
- Title: Hierarchical prosody modeling and control in non-autoregressive parallel
neural TTS
- Title(参考訳): 非自己回帰型パラレルttにおける階層的韻律モデリングと制御
- Authors: Tuomo Raitio, Jiangchuan Li, Shreyas Seshadri
- Abstract要約: 我々は、粗大できめの細かい音声特徴に基づいて、非自己回帰型並列型TTSモデルを階層的に訓練する。
実験により, 音声のピッチ, ピッチ範囲, 時間, エネルギー, スペクトル傾きに階層的に調和した非自己回帰的TSモデルが各韻律次元を効果的に制御できることが示された。
- 参考スコア(独自算出の注目度): 7.531331499935223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural text-to-speech (TTS) synthesis can generate speech that is
indistinguishable from natural speech. However, the synthetic speech often
represents the average prosodic style of the database instead of having more
versatile prosodic variation. Moreover, many models lack the ability to control
the output prosody, which does not allow for different styles for the same text
input. In this work, we train a non-autoregressive parallel neural TTS model
hierarchically conditioned on both coarse and fine-grained acoustic speech
features to learn a latent prosody space with intuitive and meaningful
dimensions. Experiments show that a non-autoregressive TTS model hierarchically
conditioned on utterance-wise pitch, pitch range, duration, energy, and
spectral tilt can effectively control each prosodic dimension, generate a wide
variety of speaking styles, and provide word-wise emphasis control, while
maintaining equal or better quality to the baseline model.
- Abstract(参考訳): ニューラルテキスト音声合成(TTS)は、自然な音声と区別できない音声を生成する。
しかし、合成音声は、より多彩な韻律変化ではなく、データベースの平均韻律スタイルを表すことが多い。
さらに、多くのモデルは出力の韻律を制御する能力に欠けており、同じテキスト入力に対して異なるスタイルを許さない。
本研究では,非自己回帰型並列型TTSモデルを用いて,粗さと細粒度の両方の音響特徴を階層的に調整し,直感的かつ有意義な韻律空間を学習する。
実験により, 発話方向のピッチ, ピッチ範囲, 時間, エネルギー, スペクトル傾きを階層的に調整した非自己回帰的TSモデルでは, 韻律次元を効果的に制御し, 多様な話し方を生成し, 単語強調制御が可能であり, ベースラインモデルに等しくあるいは良質な品質を維持した。
関連論文リスト
- Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。
自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文 参考訳(メタデータ) (2024-07-18T13:42:38Z) - NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models [127.47252277138708]
ゼロショット方式で自然な音声を生成するために,分解拡散モデルを備えたTSSシステムであるNaturalSpeech 3を提案する。
具体的には、分解ベクトル量子化(FVQ)を用いて、音声波形をコンテンツ、韻律、音色、音響的詳細の部分空間に分解する。
実験により、NaturalSpeech 3は、品質、類似性、韻律、知性において最先端のTSSシステムより優れていることが示された。
論文 参考訳(メタデータ) (2024-03-05T16:35:25Z) - Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Prosody-controllable spontaneous TTS with neural HMMs [11.472325158964646]
小型で不規則なデータセットから素早く学習できるTSアーキテクチャを提案する。
我々は既存のニューラルHMMベースのTSシステムに発話レベルの韻律制御を加える。
本研究では,2種類の難聴音声を合成するシステムの性能を評価する。
論文 参考訳(メタデータ) (2022-11-24T11:06:11Z) - StyleTTS: A Style-Based Generative Model for Natural and Diverse
Text-to-Speech Synthesis [23.17929822987861]
StyleTTSは並列TTSのためのスタイルベース生成モデルであり、参照音声発話から自然な韻律で多様な音声を合成することができる。
提案手法は, 単一話者と複数話者のデータセットにおいて, 最先端のモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2022-05-30T21:34:40Z) - Emphasis control for parallel neural TTS [8.039245267912511]
音声信号によって伝達される意味情報は、韻律の局所的な変化に強く影響される。
近年のパラレル・ニューラルテキスト・トゥ・音声(TTS)法は,高性能を維持しつつ高い忠実度で音声を生成することができる。
本稿では,重心変化に対応する潜在空間を学習することにより,韻律強調制御のための階層型並列型ニューラルネットワークTSシステムを提案する。
論文 参考訳(メタデータ) (2021-10-06T18:45:39Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - Controllable neural text-to-speech synthesis using intuitive prosodic
features [3.709803838880226]
音響音声の特徴に基づくシーケンス・ツー・シーケンスニューラルネットワークを訓練し、直感的かつ有意義な次元を持つ潜在韻律空間を学習する。
実験により, 音程, ピッチ範囲, 持続時間, エネルギー, スペクトル傾きのモデルが各韻律次元を効果的に制御し, 多様な発話スタイルを生成できることが示唆された。
論文 参考訳(メタデータ) (2020-09-14T22:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。