論文の概要: Prosody-controllable spontaneous TTS with neural HMMs
- arxiv url: http://arxiv.org/abs/2211.13533v1
- Date: Thu, 24 Nov 2022 11:06:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 18:51:17.778767
- Title: Prosody-controllable spontaneous TTS with neural HMMs
- Title(参考訳): ニューラルHMMを用いた韻律制御型自発性TS
- Authors: Harm Lameris, Shivam Mehta, Gustav Eje Henter, Joakim Gustafson, \'Eva
Sz\'ekely
- Abstract要約: 我々は,自発音声に対する安定な単調アライメントが可能な既存のニューラルHMMベースのTSシステムを修正する。
また,発話レベルの韻律制御も追加し,自発音声コーパスにおける様々な自然変動を表現できるようにした。
- 参考スコア(独自算出の注目度): 11.472325158964646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spontaneous speech has many affective and pragmatic functions that are
interesting and challenging to model in TTS (text-to-speech). However, the
presence of reduced articulation, fillers, repetitions, and other disfluencies
mean that text and acoustics are less well aligned than in read speech. This is
problematic for attention-based TTS. We propose a TTS architecture that is
particularly suited for rapidly learning to speak from irregular and small
datasets while also reproducing the diversity of expressive phenomena present
in spontaneous speech. Specifically, we modify an existing neural HMM-based TTS
system, which is capable of stable, monotonic alignments for spontaneous
speech, and add utterance-level prosody control, so that the system can
represent the wide range of natural variability in a spontaneous speech corpus.
We objectively evaluate control accuracy and perform a subjective listening
test to compare to a system without prosody control. To exemplify the power of
combining mid-level prosody control and ecologically valid data for reproducing
intricate spontaneous speech phenomena, we evaluate the system's capability of
synthesizing two types of creaky phonation. Audio samples are available at
https://hfkml.github.io/pc_nhmm_tts/
- Abstract(参考訳): 自発音声には、TS(text-to-speech)のモデル化が興味深い、多くの感情的・実践的機能がある。
しかし, 音節, フィラー, 繰り返し, その他の不一致の存在は, 読み上げ音声よりもテキストや音響の整合性が低いことを意味する。
これは注意に基づくTSでは問題となる。
本稿では,不規則なデータ集合と小さなデータ集合から急速に学習し,自然発話に存在する表現現象の多様性を再現するttsアーキテクチャを提案する。
具体的には,自発音声に対する安定な単調アライメントが可能な既存のニューラルHMMベースのTSシステムを修正し,発話レベルの韻律制御を加えることにより,自発音声コーパスにおける幅広い自然変動を表現することができる。
制御精度を客観的に評価し,主観的聞き取りテストを行い,韻律制御を行わずにシステムと比較する。
中間レベルの韻律制御と生態学的に有効なデータを組み合わせて自然発声現象を再現する能力を示すために,2種類のクレーキー音節を合成するシステムの能力を評価する。
オーディオサンプルはhttps://hfkml.github.io/pc_nhmm_tts/で入手できる。
関連論文リスト
- Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。
自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文 参考訳(メタデータ) (2024-07-18T13:42:38Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Hierarchical prosody modeling and control in non-autoregressive parallel
neural TTS [7.531331499935223]
我々は、粗大できめの細かい音声特徴に基づいて、非自己回帰型並列型TTSモデルを階層的に訓練する。
実験により, 音声のピッチ, ピッチ範囲, 時間, エネルギー, スペクトル傾きに階層的に調和した非自己回帰的TSモデルが各韻律次元を効果的に制御できることが示された。
論文 参考訳(メタデータ) (2021-10-06T17:58:42Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z) - Controllable neural text-to-speech synthesis using intuitive prosodic
features [3.709803838880226]
音響音声の特徴に基づくシーケンス・ツー・シーケンスニューラルネットワークを訓練し、直感的かつ有意義な次元を持つ潜在韻律空間を学習する。
実験により, 音程, ピッチ範囲, 持続時間, エネルギー, スペクトル傾きのモデルが各韻律次元を効果的に制御し, 多様な発話スタイルを生成できることが示唆された。
論文 参考訳(メタデータ) (2020-09-14T22:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。