論文の概要: Intra- and Inter-modal Context Interaction Modeling for Conversational Speech Synthesis
- arxiv url: http://arxiv.org/abs/2412.18733v1
- Date: Wed, 25 Dec 2024 01:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:25:12.501439
- Title: Intra- and Inter-modal Context Interaction Modeling for Conversational Speech Synthesis
- Title(参考訳): 会話音声合成のためのモーダル内およびモーダル間相互作用モデリング
- Authors: Zhenqi Jia, Rui Liu,
- Abstract要約: 会話音声合成(CSS)は,多モーダル対話履歴(MDH)を効果的に活用し,ターゲット発話に適切な会話韻律を用いた音声を生成することを目的としている。
CSSの主な課題は、MDHとターゲット発話の間のインタラクションをモデル化することである。
モーダル内およびモーダル間対話型CSSシステム(III-CSS)を提案する。
- 参考スコア(独自算出の注目度): 3.391256280235937
- License:
- Abstract: Conversational Speech Synthesis (CSS) aims to effectively take the multimodal dialogue history (MDH) to generate speech with appropriate conversational prosody for target utterance. The key challenge of CSS is to model the interaction between the MDH and the target utterance. Note that text and speech modalities in MDH have their own unique influences, and they complement each other to produce a comprehensive impact on the target utterance. Previous works did not explicitly model such intra-modal and inter-modal interactions. To address this issue, we propose a new intra-modal and inter-modal context interaction scheme-based CSS system, termed III-CSS. Specifically, in the training phase, we combine the MDH with the text and speech modalities in the target utterance to obtain four modal combinations, including Historical Text-Next Text, Historical Speech-Next Speech, Historical Text-Next Speech, and Historical Speech-Next Text. Then, we design two contrastive learning-based intra-modal and two inter-modal interaction modules to deeply learn the intra-modal and inter-modal context interaction. In the inference phase, we take MDH and adopt trained interaction modules to fully infer the speech prosody of the target utterance's text content. Subjective and objective experiments on the DailyTalk dataset show that III-CSS outperforms the advanced baselines in terms of prosody expressiveness. Code and speech samples are available at https://github.com/AI-S2-Lab/I3CSS.
- Abstract(参考訳): 会話音声合成(CSS)は,多モーダル対話履歴(MDH)を効果的に活用し,ターゲット発話に適切な会話韻律を用いた音声を生成することを目的としている。
CSSの主な課題は、MDHとターゲット発話の間のインタラクションをモデル化することである。
MDHにおけるテキストと音声のモダリティは、それぞれ独自の影響を受けており、それらが相互に補完し、ターゲット発話に包括的な影響をもたらすことに注意してください。
それまでの研究は、そのようなモーダル内相互作用やモーダル間相互作用を明示的にモデル化しなかった。
この問題に対処するため,III-CSSと呼ばれる,モーダル内およびモーダル間相互作用に基づくCSSシステムを提案する。
具体的には、トレーニング段階では、MDHとターゲット発話中のテキストと音声のモダリティを組み合わせることで、履歴テキスト-Next Text, Historical Speech-Next Speech, Historical Text-Next Speech, Historical Speech-Next Textの4つのモードの組み合わせを得る。
そこで本研究では,モーダル内相互作用とモーダル間相互作用の2つのモジュールを設計し,モーダル内相互作用とモーダル間相互作用を深く学習する。
推測フェーズでは、MDHを用いて、ターゲット発話のテキスト内容の音声韻律を完全に推測するために、訓練された相互作用モジュールを採用する。
DailyTalkデータセットの主観的および客観的実験は、III-CSSが韻律表現性において高度なベースラインより優れていることを示している。
コードと音声サンプルはhttps://github.com/AI-S2-Lab/I3CSSで入手できる。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling [40.32021786228235]
Conversational Text-to-Speech (CTTS) は、会話設定内で適切なスタイルで発話を正確に表現することを目的としている。
ER-CTTSと呼ばれるCTTSモデルのための新しい強調レンダリング手法を提案する。
データ不足に対処するため、既存の会話データセット(DailyTalk)に強調強調アノテーションを作成します。
論文 参考訳(メタデータ) (2024-10-12T13:02:31Z) - Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。
実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-08-13T04:35:11Z) - Generative Expressive Conversational Speech Synthesis [47.53014375797254]
会話音声合成(CSS)は,ユーザエージェントによる会話設定において,適切な発話スタイルでターゲット発話を表現することを目的としている。
GPT-Talkerと呼ばれる新しい生成表現型CSSシステムを提案する。
マルチターン対話履歴のマルチモーダル情報を離散トークンシーケンスに変換し、それらをシームレスに統合して総合的なユーザエージェント対話コンテキストを形成する。
論文 参考訳(メタデータ) (2024-07-31T10:02:21Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - Spoken Style Learning with Multi-modal Hierarchical Context Encoding for
Conversational Text-to-Speech Synthesis [59.27994987902646]
歴史的会話から話し言葉のスタイルを学習する研究は、まだ初期段階にある。
歴史的会話の書き起こしのみが考慮され、歴史的スピーチの話し方を無視している。
マルチモーダル階層型コンテキスト符号化を用いた音声スタイル学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-11T08:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。