論文の概要: Prosody-controllable spontaneous TTS with neural HMMs
- arxiv url: http://arxiv.org/abs/2211.13533v2
- Date: Thu, 1 Jun 2023 10:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-03 01:14:15.411190
- Title: Prosody-controllable spontaneous TTS with neural HMMs
- Title(参考訳): ニューラルHMMを用いた韻律制御型自発性TS
- Authors: Harm Lameris, Shivam Mehta, Gustav Eje Henter, Joakim Gustafson, \'Eva
Sz\'ekely
- Abstract要約: 小型で不規則なデータセットから素早く学習できるTSアーキテクチャを提案する。
我々は既存のニューラルHMMベースのTSシステムに発話レベルの韻律制御を加える。
本研究では,2種類の難聴音声を合成するシステムの性能を評価する。
- 参考スコア(独自算出の注目度): 11.472325158964646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spontaneous speech has many affective and pragmatic functions that are
interesting and challenging to model in TTS. However, the presence of reduced
articulation, fillers, repetitions, and other disfluencies in spontaneous
speech make the text and acoustics less aligned than in read speech, which is
problematic for attention-based TTS. We propose a TTS architecture that can
rapidly learn to speak from small and irregular datasets, while also
reproducing the diversity of expressive phenomena present in spontaneous
speech. Specifically, we add utterance-level prosody control to an existing
neural HMM-based TTS system which is capable of stable, monotonic alignments
for spontaneous speech. We objectively evaluate control accuracy and perform
perceptual tests that demonstrate that prosody control does not degrade
synthesis quality. To exemplify the power of combining prosody control and
ecologically valid data for reproducing intricate spontaneous speech phenomena,
we evaluate the system's capability of synthesizing two types of creaky voice.
Audio samples are available at
https://www.speech.kth.se/tts-demos/prosodic-hmm/
- Abstract(参考訳): 自発音声には多くの感情的・実践的な機能があり、TSのモデル化は興味深い。
しかし, 自発音声における調音, 補聴器, 繰り返し, その他の不一致の存在は, テキストや音響の整合性を, 注意に基づくTTSでは問題となる読み上げ音声よりも小さくする。
本稿では, 自然発話における表現現象の多様性を再現しながら, 小型・不規則なデータセットから素早く学習できるTSアーキテクチャを提案する。
具体的には,自発音声に対して安定な単調アライメントが可能な既存のニューラルhmmベースのttsシステムに発話レベルの韻律制御を追加する。
制御精度を客観的に評価し,韻律制御が合成品質を劣化させないことを示す知覚テストを行う。
複雑な自然発声現象を再現するための韻律制御と生態学的に有効なデータの組み合わせの力を例示するために,2種類のクレーキー音声を合成するシステムの能力を評価する。
オーディオサンプルはhttps://www.speech.kth.se/tts-demos/prosodic-hmm/で入手できる。
関連論文リスト
- Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。
自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文 参考訳(メタデータ) (2024-07-18T13:42:38Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Hierarchical prosody modeling and control in non-autoregressive parallel
neural TTS [7.531331499935223]
我々は、粗大できめの細かい音声特徴に基づいて、非自己回帰型並列型TTSモデルを階層的に訓練する。
実験により, 音声のピッチ, ピッチ範囲, 時間, エネルギー, スペクトル傾きに階層的に調和した非自己回帰的TSモデルが各韻律次元を効果的に制御できることが示された。
論文 参考訳(メタデータ) (2021-10-06T17:58:42Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z) - Controllable neural text-to-speech synthesis using intuitive prosodic
features [3.709803838880226]
音響音声の特徴に基づくシーケンス・ツー・シーケンスニューラルネットワークを訓練し、直感的かつ有意義な次元を持つ潜在韻律空間を学習する。
実験により, 音程, ピッチ範囲, 持続時間, エネルギー, スペクトル傾きのモデルが各韻律次元を効果的に制御し, 多様な発話スタイルを生成できることが示唆された。
論文 参考訳(メタデータ) (2020-09-14T22:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。