Fugu-MT 論文翻訳(概要): StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis

論文の概要: StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis

arxiv url: http://arxiv.org/abs/2205.15439v2
Date: Mon, 20 Nov 2023 04:31:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 21:15:01.168063
Title: StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis
Title（参考訳）: StyleTTS: 自然・多言語テキスト音声合成のためのスタイルベース生成モデル
Authors: Yinghao Aaron Li, Cong Han, Nima Mesgarani
Abstract要約: StyleTTSは並列TTSのためのスタイルベース生成モデルであり、参照音声発話から自然な韻律で多様な音声を合成することができる。提案手法は, 単一話者と複数話者のデータセットにおいて, 最先端のモデルよりも有意に優れている。
参考スコア（独自算出の注目度）: 23.17929822987861
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Text-to-Speech (TTS) has recently seen great progress in synthesizing high-quality speech owing to the rapid development of parallel TTS systems, but producing speech with naturalistic prosodic variations, speaking styles and emotional tones remains challenging. Moreover, since duration and speech are generated separately, parallel TTS models still have problems finding the best monotonic alignments that are crucial for naturalistic speech synthesis. Here, we propose StyleTTS, a style-based generative model for parallel TTS that can synthesize diverse speech with natural prosody from a reference speech utterance. With novel Transferable Monotonic Aligner (TMA) and duration-invariant data augmentation schemes, our method significantly outperforms state-of-the-art models on both single and multi-speaker datasets in subjective tests of speech naturalness and speaker similarity. Through self-supervised learning of the speaking styles, our model can synthesize speech with the same prosodic and emotional tone as any given reference speech without the need for explicitly labeling these categories.
Abstract（参考訳）: テキスト・トゥ・スペーチ(TTS)は最近、並列TSシステムの急速な発展による高品質な音声の合成において大きな進歩を見せているが、自然主義的韻律的バリエーション、話し方、感情的トーンによる音声の生成は依然として困難なままである。さらに、時間と音声は別々に生成されるため、並列TSモデルは、自然な音声合成に不可欠な最良の単調アライメントを見つけるのに問題がある。そこで本研究では,並列TTSのためのスタイルベース生成モデルであるStyleTTSを提案する。トランスファーブル・モノトニック・アリグナー(TMA)と持続不変データ拡張方式により,本手法は音声の自然性および話者類似性の主観的テストにおいて,単一話者および複数話者データセットの最先端モデルよりも有意に優れる。発話スタイルを自己教師付きで学習することで,これらのカテゴリーを明示的にラベル付けすることなく,任意の参照音声と同じ韻律的・感情的トーンで音声を合成できる。

関連論文リスト

Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文参考訳（メタデータ） (2024-07-18T13:42:38Z)
Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文参考訳（メタデータ） (2022-11-17T07:17:24Z)
End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue [19.149834552175076]
本研究の目的は,人間の対話によく似たテキスト音声(TTS)を実現することである。まず、実際の自然対話を記録し、書き起こす。提案した対話TSは、第1段階、変分オートエンコーダ(VAE)-VITSまたはガウス混合変分オートエンコーダ(GMVAE)-VITSの2段階で訓練される。
論文参考訳（メタデータ） (2022-06-24T02:32:12Z)
GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。 GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文参考訳（メタデータ） (2022-05-15T08:16:02Z)
Hierarchical prosody modeling and control in non-autoregressive parallel neural TTS [7.531331499935223]
我々は、粗大できめの細かい音声特徴に基づいて、非自己回帰型並列型TTSモデルを階層的に訓練する。実験により, 音声のピッチ, ピッチ範囲, 時間, エネルギー, スペクトル傾きに階層的に調和した非自己回帰的TSモデルが各韻律次元を効果的に制御できることが示された。
論文参考訳（メタデータ） (2021-10-06T17:58:42Z)
AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。 AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文参考訳（メタデータ） (2021-07-06T10:40:45Z)
Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。 SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文参考訳（メタデータ） (2021-06-06T15:34:11Z)
Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文参考訳（メタデータ） (2021-04-08T05:50:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。