論文の概要: DEX-TTS: Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability
- arxiv url: http://arxiv.org/abs/2406.19135v1
- Date: Thu, 27 Jun 2024 12:39:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 14:17:52.501999
- Title: DEX-TTS: Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability
- Title(参考訳): DEX-TTS:時間変動のスタイルモデリングによる拡散に基づく圧縮テキスト音声合成
- Authors: Hyun Joon Park, Jin Sob Kim, Wooseok Shin, Sung Won Han,
- Abstract要約: DEX-TTS (Diffusion-based Expressive TTS) は参照型音声合成のための音響モデルである。
DEX-TTSは、参照音声から抽出されたスタイルを扱うエンコーダとアダプタを含んでいる。
さらに、TTSの拡散ネットワークを改善するために、重複パッチと畳み込み周波数パッチの埋め込み方式を導入する。
- 参考スコア(独自算出の注目度): 7.005068872406135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expressive Text-to-Speech (TTS) using reference speech has been studied extensively to synthesize natural speech, but there are limitations to obtaining well-represented styles and improving model generalization ability. In this study, we present Diffusion-based EXpressive TTS (DEX-TTS), an acoustic model designed for reference-based speech synthesis with enhanced style representations. Based on a general diffusion TTS framework, DEX-TTS includes encoders and adapters to handle styles extracted from reference speech. Key innovations contain the differentiation of styles into time-invariant and time-variant categories for effective style extraction, as well as the design of encoders and adapters with high generalization ability. In addition, we introduce overlapping patchify and convolution-frequency patch embedding strategies to improve DiT-based diffusion networks for TTS. DEX-TTS yields outstanding performance in terms of objective and subjective evaluation in English multi-speaker and emotional multi-speaker datasets, without relying on pre-training strategies. Lastly, the comparison results for the general TTS on a single-speaker dataset verify the effectiveness of our enhanced diffusion backbone. Demos are available here.
- Abstract(参考訳): 参照音声を用いた表現的テキスト音声 (TTS) は, 自然な音声を合成するために広く研究されてきたが, 十分に表現されたスタイルの獲得とモデル一般化能力の向上には限界がある。
本研究では,DEX-TTS(Diffusion-based Expressive TTS)について述べる。
一般的な拡散TSフレームワークに基づいて、DEX-TTSは参照音声から抽出されたスタイルを処理するエンコーダとアダプタを含む。
鍵となる革新は、効率的なスタイル抽出のための時間不変および時間不変のカテゴリへのスタイルの分化と、高い一般化能力を持つエンコーダやアダプタの設計を含む。
さらに、TTSの拡散ネットワークを改善するために、重複パッチと畳み込み周波数パッチの埋め込み方式を導入する。
DEX-TTSは、事前学習戦略に頼ることなく、英語の多話者および感情的な多話者データセットにおいて、客観的および主観的評価の観点から優れた性能を得る。
最後に, 拡張拡散バックボーンの有効性を検証するため, 単一話者データセットにおける一般TSとの比較を行った。
デモはここにある。
関連論文リスト
- DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。
提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。
トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文 参考訳(メタデータ) (2024-06-17T11:25:57Z) - Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech [26.533600745910437]
本稿では,TSモデルの一般化能力を向上させるために,スパースアテンション(sparse attention)と呼ばれる変圧器の効率的なプルーニング法を提案する。
また,モデルがしきい値を自動的に学習することのできる,新しい微分可能なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-28T21:25:05Z) - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion
and Adversarial Training with Large Speech Language Models [19.029030168939354]
StyleTTS 2は、大きな音声言語モデル(SLM)によるスタイル拡散と対角訓練を活用して、人間レベルのTS合成を実現するテキスト音声合成(TTS)モデルである。
StyleTTS 2は、単一話者のLJSpeechデータセット上の人間の記録を上回り、ネイティブ英語話者によって判断されるマルチ話者のVCTKデータセットにマッチする。
この研究は、単一話者と複数話者のデータセット上で初めての人間レベルのTSを実現し、大きなSLMを用いたスタイル拡散と対角訓練の可能性を示した。
論文 参考訳(メタデータ) (2023-06-13T11:04:43Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - StyleTTS: A Style-Based Generative Model for Natural and Diverse
Text-to-Speech Synthesis [23.17929822987861]
StyleTTSは並列TTSのためのスタイルベース生成モデルであり、参照音声発話から自然な韻律で多様な音声を合成することができる。
提案手法は, 単一話者と複数話者のデータセットにおいて, 最先端のモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2022-05-30T21:34:40Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z) - End-to-End Text-to-Speech using Latent Duration based on VQ-VAE [48.151894340550385]
テキスト音声合成(TTS)におけるロバストかつ効率的なアライメントの実現の鍵となる明示的持続時間モデリング
本稿では,時間長をTSの離散潜在変数として組み込んだ明示的持続時間モデルを用いた新しいTSフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。