論文の概要: MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2404.18398v1
- Date: Mon, 29 Apr 2024 03:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 14:56:28.754254
- Title: MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis
- Title(参考訳): MM-TTS:マルチモーダル・プロンプトによる感情テキスト音声合成のための統一フレームワーク
- Authors: Xiang Li, Zhi-Qi Cheng, Jun-Yan He, Xiaojiang Peng, Alexander G. Hauptmann,
- Abstract要約: MM-TTS(Multimodal Emotional Text-to-Speech System)は、複数のモーダルからの感情的手がかりを利用して、高表現的で感情的に共鳴する音声を生成する統合フレームワークである。
Emotion Prompt Alignment Module (EP-Align),Emotion Embedding-induced TTS (EMI-TTS),Emotion Embedding-induced TTS (Emotion Embedding-induced TTS) の2つの主要なコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 70.06396781553191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional Text-to-Speech (E-TTS) synthesis has gained significant attention in recent years due to its potential to enhance human-computer interaction. However, current E-TTS approaches often struggle to capture the complexity of human emotions, primarily relying on oversimplified emotional labels or single-modality inputs. To address these limitations, we propose the Multimodal Emotional Text-to-Speech System (MM-TTS), a unified framework that leverages emotional cues from multiple modalities to generate highly expressive and emotionally resonant speech. MM-TTS consists of two key components: (1) the Emotion Prompt Alignment Module (EP-Align), which employs contrastive learning to align emotional features across text, audio, and visual modalities, ensuring a coherent fusion of multimodal information; and (2) the Emotion Embedding-Induced TTS (EMI-TTS), which integrates the aligned emotional embeddings with state-of-the-art TTS models to synthesize speech that accurately reflects the intended emotions. Extensive evaluations across diverse datasets demonstrate the superior performance of MM-TTS compared to traditional E-TTS models. Objective metrics, including Word Error Rate (WER) and Character Error Rate (CER), show significant improvements on ESD dataset, with MM-TTS achieving scores of 7.35% and 3.07%, respectively. Subjective assessments further validate that MM-TTS generates speech with emotional fidelity and naturalness comparable to human speech. Our code and pre-trained models are publicly available at https://anonymous.4open.science/r/MMTTS-D214
- Abstract(参考訳): E-TTS(Emotional Text-to-Speech)合成は近年,人間とコンピュータの相互作用を高める可能性から注目されている。
しかしながら、現在のE-TTSアプローチは、主に過度に単純化された感情ラベルや単一モダリティ入力に依存する、人間の感情の複雑さを捉えるのに苦労することが多い。
これらの制約に対処するため,多モーダル・感情テキスト・トゥ・スポーチ・システム (MM-TTS, Multimodal Emotional Text-to-Speech System) を提案する。
MM-TTSは,(1)感情適応モジュール (EP-Align, Emotion Prompt Alignment Module, Emotion Prompt Alignment Module, Emotion Prompt Alignment Module, Emotion Prompt Alignment Module, Emotion Prompt Alignment Module, Emotion Prompt Alignment Module, Emotion Prompt Alignment Module, Emotion Embedding-induced TTS, Emotion Embedding-induced TTS) の2つの重要な構成要素から構成される。
多様なデータセットにわたる広範囲な評価は、従来のE-TTSモデルと比較してMM-TTSの優れた性能を示す。
Word Error Rate (WER) と character Error Rate (CER) を含む客観的な指標は、それぞれ7.35%と3.07%のスコアを達成し、ESDデータセットに大きな改善が見られた。
主観評価は、MM-TTSが人間の音声に匹敵する感情的忠実さと自然さを持つ音声を生成することをさらに証明する。
私たちのコードと事前訓練されたモデルはhttps://anonymous.4open.science/r/MMTTS-D214で公開されています。
関連論文リスト
- Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の幅広い範囲を模倣する際の課題に直面している。
本稿では,喜び,覚醒,支配の制御を容易にするTTSフレームワークを提案する。
TTSトレーニング中に感情的な音声データを必要とせずに、感情的なスタイルの多様性を合成することができる。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech [0.13654846342364302]
FEIM-TTSはゼロショット音声合成モデルである。
モデルはLSS3、CREMA-D、MELDデータセットを使用してトレーニングされ、適応性を示している。
TTSに感情的なニュアンスを組み込むことで、Webコミックのダイナミックで魅力的な聴覚体験を可能にし、視覚障害者がこれらの物語をより完全に楽しめるようにする。
論文 参考訳(メタデータ) (2024-09-24T16:01:12Z) - Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text-to-Speech [51.486112860259595]
EmoCtrl-TTSは感情制御可能なゼロショットTSであり、あらゆる話者に対してNVで高い感情的な音声を生成することができる。
高品質な感情音声生成を実現するために、EmoCtrl-TTSは擬似ラベルに基づく27,000時間以上の表現データを用いて訓練される。
論文 参考訳(メタデータ) (2024-07-17T00:54:15Z) - Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion
Recognition [42.09340937787435]
本研究では,異なる音声教師付き事前学習モデルの表現能力について検討した。
我々は,感情的に一致したテキストと音声を生成するために,強力な大言語モデル (LLM), GPT-4, 感情的テキスト音声モデル (TTS) を使用した。
論文 参考訳(メタデータ) (2023-09-19T03:52:01Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - EE-TTS: Emphatic Expressive TTS with Linguistic Information [16.145985004361407]
強調音声と言語情報を用いて表現音声を合成するEmphatic Expressive TTS(EE-TTS)を提案する。
EE-TTSはテキストから適切な強調位置を識別できる強調予測器を含んでいる。
実験の結果、EE-TTSは、表現性と自然性において、MOSの改善0.49と0.67でベースラインを上回った。
論文 参考訳(メタデータ) (2023-05-20T05:58:56Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。