論文の概要: DiffCSS: Diverse and Expressive Conversational Speech Synthesis with Diffusion Models
- arxiv url: http://arxiv.org/abs/2502.19924v1
- Date: Thu, 27 Feb 2025 09:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:56:01.899933
- Title: DiffCSS: Diverse and Expressive Conversational Speech Synthesis with Diffusion Models
- Title(参考訳): DiffCSS:拡散モデルを用いた対話音声合成
- Authors: Weihao wu, Zhiwei Lin, Yixuan Zhou, Jingbei Li, Rui Niu, Qinghua Wu, Songjun Cao, Long Ma, Zhiyong Wu,
- Abstract要約: 会話音声合成(CSS)は,文脈的に適切な音声と表現的音声の両方を合成することを目的としている。
DiffCSSは拡散モデルとLMベースのTSバックボーンを利用して,多様な,表現的で,文脈的に一貫性のある音声を生成する,革新的なCSSフレームワークである。
DiffCSSから合成した音声は既存のCSSシステムよりも多様で、文脈的に一貫性があり、表現力が高いことを示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 19.259178812147287
- License:
- Abstract: Conversational speech synthesis (CSS) aims to synthesize both contextually appropriate and expressive speech, and considerable efforts have been made to enhance the understanding of conversational context. However, existing CSS systems are limited to deterministic prediction, overlooking the diversity of potential responses. Moreover, they rarely employ language model (LM)-based TTS backbones, limiting the naturalness and quality of synthesized speech. To address these issues, in this paper, we propose DiffCSS, an innovative CSS framework that leverages diffusion models and an LM-based TTS backbone to generate diverse, expressive, and contextually coherent speech. A diffusion-based context-aware prosody predictor is proposed to sample diverse prosody embeddings conditioned on multimodal conversational context. Then a prosody-controllable LM-based TTS backbone is developed to synthesize high-quality speech with sampled prosody embeddings. Experimental results demonstrate that the synthesized speech from DiffCSS is more diverse, contextually coherent, and expressive than existing CSS systems
- Abstract(参考訳): 会話音声合成(CSS)は、文脈的に適切かつ表現力のある音声の両方を合成することを目的としており、会話文脈の理解を高めるためにかなりの努力がなされている。
しかし、既存のCSSシステムは、潜在的な応答の多様性を見越して決定論的予測に限られている。
さらに、彼らは言語モデル(LM)ベースのTSバックボーンを滅多に採用せず、合成音声の自然性と品質を制限している。
本稿では,拡散モデルとLMベースのTSバックボーンを利用して,多様な,表現的,文脈的に一貫性のある音声を生成する,革新的なCSSフレームワークであるDiffCSSを提案する。
拡散型文脈認識型韻律予測器を提案し,多モーダルな会話文脈で条件付けられた多種多様な韻律埋め込みをサンプリングする。
そして、プロソディ制御可能なLMベースのTSバックボーンを開発し、プロソディ埋め込みを用いて高品質な音声を合成する。
DiffCSSの合成音声は既存のCSSシステムよりも多様で、文脈的に一貫性があり、表現力が高いことを示す実験結果が得られた。
関連論文リスト
- CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - Generative Expressive Conversational Speech Synthesis [47.53014375797254]
会話音声合成(CSS)は,ユーザエージェントによる会話設定において,適切な発話スタイルでターゲット発話を表現することを目的としている。
GPT-Talkerと呼ばれる新しい生成表現型CSSシステムを提案する。
マルチターン対話履歴のマルチモーダル情報を離散トークンシーケンスに変換し、それらをシームレスに統合して総合的なユーザエージェント対話コンテキストを形成する。
論文 参考訳(メタデータ) (2024-07-31T10:02:21Z) - Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。
自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文 参考訳(メタデータ) (2024-07-18T13:42:38Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - CONCSS: Contrastive-based Context Comprehension for Dialogue-appropriate
Prosody in Conversational Speech Synthesis [14.067804301298498]
対照的な学習ベースのCSSフレームワークであるConCSSを紹介した。
このフレームワーク内では、CSS特有の革新的なプリテキストタスクを定義します。
また、文脈ベクトルの識別性を高めるために、負のサンプル増分のためのサンプリング戦略を導入する。
論文 参考訳(メタデータ) (2023-12-16T07:05:16Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - StyleTTS: A Style-Based Generative Model for Natural and Diverse
Text-to-Speech Synthesis [23.17929822987861]
StyleTTSは並列TTSのためのスタイルベース生成モデルであり、参照音声発話から自然な韻律で多様な音声を合成することができる。
提案手法は, 単一話者と複数話者のデータセットにおいて, 最先端のモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2022-05-30T21:34:40Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。
FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。
正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-14T04:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。