論文の概要: M2-CTTS: End-to-End Multi-scale Multi-modal Conversational
Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2305.02269v1
- Date: Wed, 3 May 2023 16:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 13:59:15.810849
- Title: M2-CTTS: End-to-End Multi-scale Multi-modal Conversational
Text-to-Speech Synthesis
- Title(参考訳): M2-CTTS:マルチモーダル対話音声合成
- Authors: Jinlong Xue, Yayue Deng, Fengping Wang, Ya Li, Yingming Gao, Jianhua
Tao, Jianqing Sun, Jiaen Liang
- Abstract要約: M2-CTTSは、歴史的会話を包括的に活用し、韻律表現を強化することを目的としている。
我々は、粗粒度と細粒度の両方のモデリングにより、テキストコンテキストモジュールと音響コンテキストモジュールを設計する。
- 参考スコア(独自算出の注目度): 38.85861825252267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational text-to-speech (TTS) aims to synthesize speech with proper
prosody of reply based on the historical conversation. However, it is still a
challenge to comprehensively model the conversation, and a majority of
conversational TTS systems only focus on extracting global information and omit
local prosody features, which contain important fine-grained information like
keywords and emphasis. Moreover, it is insufficient to only consider the
textual features, and acoustic features also contain various prosody
information. Hence, we propose M2-CTTS, an end-to-end multi-scale multi-modal
conversational text-to-speech system, aiming to comprehensively utilize
historical conversation and enhance prosodic expression. More specifically, we
design a textual context module and an acoustic context module with both
coarse-grained and fine-grained modeling. Experimental results demonstrate that
our model mixed with fine-grained context information and additionally
considering acoustic features achieves better prosody performance and
naturalness in CMOS tests.
- Abstract(参考訳): 会話テキスト音声(TTS)は,歴史的会話に基づく適切な韻律による音声合成を目的としている。
しかし、会話を包括的にモデル化することは依然として課題であり、ほとんどの会話的TSSシステムは、グローバル情報抽出と、キーワードや強調といった重要なきめ細かい情報を含む局所韻律特徴の省略にのみ焦点を絞っている。
また, テキストの特徴のみを考慮することは不十分であり, 様々な韻律情報を含む音響的特徴も含んでいる。
そこで本稿では,m2-ctts を提案する。m2-ctts は,歴史的会話の総合的活用と韻律表現の強化を目的としている。
より具体的には、粗粒度と細粒度の両方をモデル化したテキストコンテキストモジュールと音響コンテキストモジュールを設計する。
実験の結果,cmosテストにおいて,細粒度コンテキスト情報と音響特徴を混合したモデルが,より優れた韻律性能と自然性を実現することが示された。
関連論文リスト
- OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [24.68804661538364]
全音声対話システムは人間と人間の相互作用を著しく反映している。
低レイテンシと自然なインタラクションを実現することは、大きな課題です。
エンドツーエンド音声対話システムは、効率的で自然なエンドツーエンドシステムを開発する上で有望な方向である。
OmniFlatten氏によって生成された対話のオーディオサンプルは、このWebサイトにある。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling [40.32021786228235]
Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。
ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
論文 参考訳(メタデータ) (2024-10-12T13:02:31Z) - MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis [70.06396781553191]
MM-TTS(Multimodal Emotional Text-to-Speech System)は、複数のモーダルからの感情的手がかりを利用して、高表現的で感情的に共鳴する音声を生成する統合フレームワークである。
Emotion Prompt Alignment Module (EP-Align),Emotion Embedding-induced TTS (EMI-TTS),Emotion Embedding-induced TTS (Emotion Embedding-induced TTS) の2つの主要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - Towards Joint Modeling of Dialogue Response and Speech Synthesis based
on Large Language Model [8.180382743037082]
本稿では,AI音声対話システムの構築の可能性について考察する。
論文 参考訳(メタデータ) (2023-09-20T01:48:27Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。