論文の概要: DiffStyleTTS: Diffusion-based Hierarchical Prosody Modeling for Text-to-Speech with Diverse and Controllable Styles
- arxiv url: http://arxiv.org/abs/2412.03388v1
- Date: Wed, 04 Dec 2024 15:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:39.995033
- Title: DiffStyleTTS: Diffusion-based Hierarchical Prosody Modeling for Text-to-Speech with Diverse and Controllable Styles
- Title(参考訳): DiffStyleTTS:多言語・制御可能なテキスト音声の拡散に基づく階層的韻律モデリング
- Authors: Jiaxuan Liu, Zhaoci Liu, Yajun Hu, Yingying Gao, Shilei Zhang, Zhenhua Ling,
- Abstract要約: DiffStyleTTSは条件付き拡散モジュールに基づくマルチスピーカ音響モデルである。
階層的に音声韻律の特徴をモデル化し、韻律予測を導くために異なる韻律スタイルを制御する。
- 参考スコア(独自算出の注目度): 32.31720175316358
- License:
- Abstract: Human speech exhibits rich and flexible prosodic variations. To address the one-to-many mapping problem from text to prosody in a reasonable and flexible manner, we propose DiffStyleTTS, a multi-speaker acoustic model based on a conditional diffusion module and an improved classifier-free guidance, which hierarchically models speech prosodic features, and controls different prosodic styles to guide prosody prediction. Experiments show that our method outperforms all baselines in naturalness and achieves superior synthesis speed compared to three diffusion-based baselines. Additionally, by adjusting the guiding scale, DiffStyleTTS effectively controls the guidance intensity of the synthetic prosody.
- Abstract(参考訳): 人間のスピーチは豊かで柔軟な韻律のバリエーションを示す。
テキストから韻律への一対一のマッピング問題を合理的かつ柔軟な方法で解決するために,条件付き拡散モジュールに基づく多話者音響モデルDiffStyleTTSを提案する。
実験により,本手法は自然性においてすべてのベースラインを上回り,3つの拡散ベースラインよりも優れた合成速度が得られることが示された。
さらに,DiffStyleTTSは誘導尺度を調整することにより,合成韻律の誘導強度を効果的に制御する。
関連論文リスト
- Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。
自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文 参考訳(メタデータ) (2024-07-18T13:42:38Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Improving Prosody for Cross-Speaker Style Transfer by Semi-Supervised
Style Extractor and Hierarchical Modeling in Speech Synthesis [37.65745551401636]
音声合成におけるクロススピーカースタイルの伝達は,音源話者から対象話者の音色を合成した音声へスタイルを伝達することを目的としている。
従来の方法では、合成された微細な韻律の特徴は、しばしばソース話者の平均的なスタイルを表す。
コンテントと音色からスタイルを引き離すために, 強度制御型半教師付きスタイル抽出器を提案する。
論文 参考訳(メタデータ) (2023-03-14T08:52:58Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - Hierarchical prosody modeling and control in non-autoregressive parallel
neural TTS [7.531331499935223]
我々は、粗大できめの細かい音声特徴に基づいて、非自己回帰型並列型TTSモデルを階層的に訓練する。
実験により, 音声のピッチ, ピッチ範囲, 時間, エネルギー, スペクトル傾きに階層的に調和した非自己回帰的TSモデルが各韻律次元を効果的に制御できることが示された。
論文 参考訳(メタデータ) (2021-10-06T17:58:42Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。