論文の概要: UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts
- arxiv url: http://arxiv.org/abs/2404.18398v2
- Date: Tue, 18 Feb 2025 21:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:56:05.101452
- Title: UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts
- Title(参考訳): UMETTS:マルチモーダルプロンプトを用いた感情テキスト音声合成のための統一フレームワーク
- Authors: Zhi-Qi Cheng, Xiang Li, Jun-Yan He, Junyao Chen, Xiaomao Fan, Xiaojiang Peng, Alexander G. Hauptmann,
- Abstract要約: UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
- 参考スコア(独自算出の注目度): 64.02363948840333
- License:
- Abstract: Emotional Text-to-Speech (E-TTS) synthesis has garnered significant attention in recent years due to its potential to revolutionize human-computer interaction. However, current E-TTS approaches often struggle to capture the intricacies of human emotions, primarily relying on oversimplified emotional labels or single-modality input. In this paper, we introduce the Unified Multimodal Prompt-Induced Emotional Text-to-Speech System (UMETTS), a novel framework that leverages emotional cues from multiple modalities to generate highly expressive and emotionally resonant speech. The core of UMETTS consists of two key components: the Emotion Prompt Alignment Module (EP-Align) and the Emotion Embedding-Induced TTS Module (EMI-TTS). (1) EP-Align employs contrastive learning to align emotional features across text, audio, and visual modalities, ensuring a coherent fusion of multimodal information. (2) Subsequently, EMI-TTS integrates the aligned emotional embeddings with state-of-the-art TTS models to synthesize speech that accurately reflects the intended emotions. Extensive evaluations show that UMETTS achieves significant improvements in emotion accuracy and speech naturalness, outperforming traditional E-TTS methods on both objective and subjective metrics.
- Abstract(参考訳): E-TTS(Emotional Text-to-Speech)合成は近年,人間とコンピュータの相互作用に革命をもたらす可能性から注目されている。
しかし、現在のE-TTSアプローチは人間の感情の複雑さを捉えるのに苦労することが多く、主に過度に単純化された感情ラベルや単一モダリティ入力に依存している。
本稿では,マルチモーダル・プロンプトによる感情テキスト合成システム(UMETTS)について紹介する。
UMETTSのコアは、Emotion Prompt Alignment Module (EP-Align)とEmotion Embedding-induced TTS Module (EMI-TTS)の2つの主要なコンポーネントで構成されている。
1)EP-Alignは,テキスト,音声,視覚的モダリティ間の感情的特徴の整合性を確保するために,コントラスト学習を採用している。
2) EMI-TTSは, 感情を正確に反映した音声を合成するために, 協調した感情埋め込みを最先端のTSモデルと統合する。
広範囲な評価の結果,UMETTSは感情の正確さと音声の自然さを大幅に向上させ,従来のE-TTS法よりも客観的,主観的両指標に優れていた。
関連論文リスト
- Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の幅広い範囲を模倣する際の課題に直面している。
本稿では,喜び,覚醒,支配の制御を容易にするTTSフレームワークを提案する。
TTSトレーニング中に感情的な音声データを必要とせずに、感情的なスタイルの多様性を合成することができる。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech [0.13654846342364302]
FEIM-TTSはゼロショット音声合成モデルである。
モデルはLSS3、CREMA-D、MELDデータセットを使用してトレーニングされ、適応性を示している。
TTSに感情的なニュアンスを組み込むことで、Webコミックのダイナミックで魅力的な聴覚体験を可能にし、視覚障害者がこれらの物語をより完全に楽しめるようにする。
論文 参考訳(メタデータ) (2024-09-24T16:01:12Z) - Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text-to-Speech [51.486112860259595]
EmoCtrl-TTSは感情制御可能なゼロショットTSであり、あらゆる話者に対してNVで高い感情的な音声を生成することができる。
高品質な感情音声生成を実現するために、EmoCtrl-TTSは擬似ラベルに基づく27,000時間以上の表現データを用いて訓練される。
論文 参考訳(メタデータ) (2024-07-17T00:54:15Z) - Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion
Recognition [42.09340937787435]
本研究では,異なる音声教師付き事前学習モデルの表現能力について検討した。
我々は,感情的に一致したテキストと音声を生成するために,強力な大言語モデル (LLM), GPT-4, 感情的テキスト音声モデル (TTS) を使用した。
論文 参考訳(メタデータ) (2023-09-19T03:52:01Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - EE-TTS: Emphatic Expressive TTS with Linguistic Information [16.145985004361407]
強調音声と言語情報を用いて表現音声を合成するEmphatic Expressive TTS(EE-TTS)を提案する。
EE-TTSはテキストから適切な強調位置を識別できる強調予測器を含んでいる。
実験の結果、EE-TTSは、表現性と自然性において、MOSの改善0.49と0.67でベースラインを上回った。
論文 参考訳(メタデータ) (2023-05-20T05:58:56Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。