論文の概要: M2-CTTS: End-to-End Multi-scale Multi-modal Conversational
Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2305.02269v1
- Date: Wed, 3 May 2023 16:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 13:59:15.810849
- Title: M2-CTTS: End-to-End Multi-scale Multi-modal Conversational
Text-to-Speech Synthesis
- Title(参考訳): M2-CTTS:マルチモーダル対話音声合成
- Authors: Jinlong Xue, Yayue Deng, Fengping Wang, Ya Li, Yingming Gao, Jianhua
Tao, Jianqing Sun, Jiaen Liang
- Abstract要約: M2-CTTSは、歴史的会話を包括的に活用し、韻律表現を強化することを目的としている。
我々は、粗粒度と細粒度の両方のモデリングにより、テキストコンテキストモジュールと音響コンテキストモジュールを設計する。
- 参考スコア(独自算出の注目度): 38.85861825252267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational text-to-speech (TTS) aims to synthesize speech with proper
prosody of reply based on the historical conversation. However, it is still a
challenge to comprehensively model the conversation, and a majority of
conversational TTS systems only focus on extracting global information and omit
local prosody features, which contain important fine-grained information like
keywords and emphasis. Moreover, it is insufficient to only consider the
textual features, and acoustic features also contain various prosody
information. Hence, we propose M2-CTTS, an end-to-end multi-scale multi-modal
conversational text-to-speech system, aiming to comprehensively utilize
historical conversation and enhance prosodic expression. More specifically, we
design a textual context module and an acoustic context module with both
coarse-grained and fine-grained modeling. Experimental results demonstrate that
our model mixed with fine-grained context information and additionally
considering acoustic features achieves better prosody performance and
naturalness in CMOS tests.
- Abstract(参考訳): 会話テキスト音声(TTS)は,歴史的会話に基づく適切な韻律による音声合成を目的としている。
しかし、会話を包括的にモデル化することは依然として課題であり、ほとんどの会話的TSSシステムは、グローバル情報抽出と、キーワードや強調といった重要なきめ細かい情報を含む局所韻律特徴の省略にのみ焦点を絞っている。
また, テキストの特徴のみを考慮することは不十分であり, 様々な韻律情報を含む音響的特徴も含んでいる。
そこで本稿では,m2-ctts を提案する。m2-ctts は,歴史的会話の総合的活用と韻律表現の強化を目的としている。
より具体的には、粗粒度と細粒度の両方をモデル化したテキストコンテキストモジュールと音響コンテキストモジュールを設計する。
実験の結果,cmosテストにおいて,細粒度コンテキスト情報と音響特徴を混合したモデルが,より優れた韻律性能と自然性を実現することが示された。
関連論文リスト
- Towards Joint Modeling of Dialogue Response and Speech Synthesis based
on Large Language Model [8.180382743037082]
本稿では,AI音声対話システムの構築の可能性について考察する。
論文 参考訳(メタデータ) (2023-09-20T01:48:27Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Contextual Expressive Text-to-Speech [25.050361896378533]
我々は新しいタスク設定 Contextual Text-to-speech (CTTS) を導入する。
CTTSの主な考え方は、人がどのように話すかは、通常、コンテキストをテキストとして表現できる特定のコンテキストに依存する、というものである。
合成データセットを構築し、与えられた文脈に基づいて高品質な表現音声を生成するための効果的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-11-26T12:06:21Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Who says like a style of Vitamin: Towards Syntax-Aware
DialogueSummarization using Multi-task Learning [2.251583286448503]
個々の話者からの発声と独特の統語構造との関係に焦点をあてる。
話者は、音声プリントのような言語情報を含むことができる独自のテキストスタイルを持つ。
構文認識情報と対話要約の両方をマルチタスクで学習する。
論文 参考訳(メタデータ) (2021-09-29T05:30:39Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。