Fugu-MT 論文翻訳(概要): Prosody-controllable spontaneous TTS with neural HMMs

論文の概要: Prosody-controllable spontaneous TTS with neural HMMs

arxiv url: http://arxiv.org/abs/2211.13533v1
Date: Thu, 24 Nov 2022 11:06:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 18:51:17.778767
Title: Prosody-controllable spontaneous TTS with neural HMMs
Title（参考訳）: ニューラルHMMを用いた韻律制御型自発性TS
Authors: Harm Lameris, Shivam Mehta, Gustav Eje Henter, Joakim Gustafson, \'Eva Sz\'ekely
Abstract要約: 我々は,自発音声に対する安定な単調アライメントが可能な既存のニューラルHMMベースのTSシステムを修正する。また,発話レベルの韻律制御も追加し,自発音声コーパスにおける様々な自然変動を表現できるようにした。
参考スコア（独自算出の注目度）: 11.472325158964646
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spontaneous speech has many affective and pragmatic functions that are interesting and challenging to model in TTS (text-to-speech). However, the presence of reduced articulation, fillers, repetitions, and other disfluencies mean that text and acoustics are less well aligned than in read speech. This is problematic for attention-based TTS. We propose a TTS architecture that is particularly suited for rapidly learning to speak from irregular and small datasets while also reproducing the diversity of expressive phenomena present in spontaneous speech. Specifically, we modify an existing neural HMM-based TTS system, which is capable of stable, monotonic alignments for spontaneous speech, and add utterance-level prosody control, so that the system can represent the wide range of natural variability in a spontaneous speech corpus. We objectively evaluate control accuracy and perform a subjective listening test to compare to a system without prosody control. To exemplify the power of combining mid-level prosody control and ecologically valid data for reproducing intricate spontaneous speech phenomena, we evaluate the system's capability of synthesizing two types of creaky phonation. Audio samples are available at https://hfkml.github.io/pc_nhmm_tts/
Abstract（参考訳）: 自発音声には、TS(text-to-speech)のモデル化が興味深い、多くの感情的・実践的機能がある。しかし, 音節, フィラー, 繰り返し, その他の不一致の存在は, 読み上げ音声よりもテキストや音響の整合性が低いことを意味する。これは注意に基づくTSでは問題となる。本稿では,不規則なデータ集合と小さなデータ集合から急速に学習し,自然発話に存在する表現現象の多様性を再現するttsアーキテクチャを提案する。具体的には,自発音声に対する安定な単調アライメントが可能な既存のニューラルHMMベースのTSシステムを修正し,発話レベルの韻律制御を加えることにより,自発音声コーパスにおける幅広い自然変動を表現することができる。制御精度を客観的に評価し,主観的聞き取りテストを行い,韻律制御を行わずにシステムと比較する。中間レベルの韻律制御と生態学的に有効なデータを組み合わせて自然発声現象を再現する能力を示すために,2種類のクレーキー音節を合成するシステムの能力を評価する。オーディオサンプルはhttps://hfkml.github.io/pc_nhmm_tts/で入手できる。

関連論文リスト

Flamed-TTS: Flow Matching Attention-Free Models for Efficient Generating and Dynamic Pacing Zero-shot Text-to-Speech [2.5964779217812057]
Flamed-TTSは、低計算コスト、低レイテンシ、高音声忠実度と豊富な時間的多様性を強調する新しいゼロショットテキスト音声合成フレームワークである。本研究では,Flamed-TTSが最先端モデルを超え,可知性,自然性,話者の類似性,音響特性の保存,動的ペースについて検討した。
論文参考訳（メタデータ） (2025-10-03T09:36:55Z)
Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文参考訳（メタデータ） (2024-07-18T13:42:38Z)
Diff-TTSG: Denoising probabilistic integrated speech and gesture synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文参考訳（メタデータ） (2023-06-15T18:02:49Z)
ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文参考訳（メタデータ） (2023-05-23T08:52:00Z)
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文参考訳（メタデータ） (2023-04-18T16:31:59Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。 TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文参考訳（メタデータ） (2022-05-25T06:34:14Z)
Hierarchical prosody modeling and control in non-autoregressive parallel neural TTS [7.531331499935223]
我々は、粗大できめの細かい音声特徴に基づいて、非自己回帰型並列型TTSモデルを階層的に訓練する。実験により, 音声のピッチ, ピッチ範囲, 時間, エネルギー, スペクトル傾きに階層的に調和した非自己回帰的TSモデルが各韻律次元を効果的に制御できることが示された。
論文参考訳（メタデータ） (2021-10-06T17:58:42Z)
AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。 AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文参考訳（メタデータ） (2021-07-06T10:40:45Z)
Controllable neural text-to-speech synthesis using intuitive prosodic features [3.709803838880226]
音響音声の特徴に基づくシーケンス・ツー・シーケンスニューラルネットワークを訓練し、直感的かつ有意義な次元を持つ潜在韻律空間を学習する。実験により, 音程, ピッチ範囲, 持続時間, エネルギー, スペクトル傾きのモデルが各韻律次元を効果的に制御し, 多様な発話スタイルを生成できることが示唆された。
論文参考訳（メタデータ） (2020-09-14T22:37:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。