Fugu-MT 論文翻訳(概要): UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts

論文の概要: UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts

arxiv url: http://arxiv.org/abs/2404.18398v2
Date: Tue, 18 Feb 2025 21:39:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:09.623249
Title: UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts
Title（参考訳）: UMETTS:マルチモーダルプロンプトを用いた感情テキスト音声合成のための統一フレームワーク
Authors: Zhi-Qi Cheng, Xiang Li, Jun-Yan He, Junyao Chen, Xiaomao Fan, Xiaojiang Peng, Alexander G. Hauptmann,
Abstract要約: UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。 EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。 EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
参考スコア（独自算出の注目度）: 64.02363948840333
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emotional Text-to-Speech (E-TTS) synthesis has garnered significant attention in recent years due to its potential to revolutionize human-computer interaction. However, current E-TTS approaches often struggle to capture the intricacies of human emotions, primarily relying on oversimplified emotional labels or single-modality input. In this paper, we introduce the Unified Multimodal Prompt-Induced Emotional Text-to-Speech System (UMETTS), a novel framework that leverages emotional cues from multiple modalities to generate highly expressive and emotionally resonant speech. The core of UMETTS consists of two key components: the Emotion Prompt Alignment Module (EP-Align) and the Emotion Embedding-Induced TTS Module (EMI-TTS). (1) EP-Align employs contrastive learning to align emotional features across text, audio, and visual modalities, ensuring a coherent fusion of multimodal information. (2) Subsequently, EMI-TTS integrates the aligned emotional embeddings with state-of-the-art TTS models to synthesize speech that accurately reflects the intended emotions. Extensive evaluations show that UMETTS achieves significant improvements in emotion accuracy and speech naturalness, outperforming traditional E-TTS methods on both objective and subjective metrics.
Abstract（参考訳）: E-TTS(Emotional Text-to-Speech)合成は近年,人間とコンピュータの相互作用に革命をもたらす可能性から注目されている。しかし、現在のE-TTSアプローチは人間の感情の複雑さを捉えるのに苦労することが多く、主に過度に単純化された感情ラベルや単一モダリティ入力に依存している。本稿では,マルチモーダル・プロンプトによる感情テキスト合成システム(UMETTS)について紹介する。 UMETTSのコアは、Emotion Prompt Alignment Module (EP-Align)とEmotion Embedding-induced TTS Module (EMI-TTS)の2つの主要なコンポーネントで構成されている。 1)EP-Alignは,テキスト,音声,視覚的モダリティ間の感情的特徴の整合性を確保するために,コントラスト学習を採用している。 2) EMI-TTSは, 感情を正確に反映した音声を合成するために, 協調した感情埋め込みを最先端のTSモデルと統合する。広範囲な評価の結果,UMETTSは感情の正確さと音声の自然さを大幅に向上させ,従来のE-TTS法よりも客観的,主観的両指標に優れていた。

関連論文リスト

EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering [34.57020177838285]
EmoSteer-TTSは、きめ細かい音声感情制御を実現するための、新しい訓練不要のアプローチである。 EmoSteer-TTSは、音声感情のきめ細かな、解釈可能な、連続的な制御を可能にし、最先端(SOTA)よりも優れている
論文参考訳（メタデータ） (2025-08-05T15:12:49Z)
Prompt-Unseen-Emotion: Zero-shot Expressive Speech Synthesis with Prompt-LLM Contextual Knowledge for Mixed Emotions [38.122477830163255]
本稿では,感情誘導型プロンプト学習による未知の感情音声を生成するための,新しいプロンプト・アンザイム・感情(PUE)アプローチを提案する。提案したPUEは、ゼロショット設定における未知の感情の表現的音声合成に成功している。
論文参考訳（メタデータ） (2025-06-03T10:59:22Z)
Towards Emotionally Consistent Text-Based Speech Editing: Introducing EmoCorrector and The ECD-TSE Dataset [52.95197015472105]
EmoCorrectorはテキストベースの音声編集のための新しいポスト補正方式である。編集されたテキストの感情的特徴を検索し、一致する感情で音声サンプルを検索し、所望の感情に合わせて音声を合成する。 EmoCorrectorは、現在のTSEメソッドにおける感情の不整合に対処しながら、意図した感情の発現を著しく向上させる。
論文参考訳（メタデータ） (2025-05-24T16:10:56Z)
GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。 4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文参考訳（メタデータ） (2025-03-26T18:46:18Z)
Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
Making Social Platforms Accessible: Emotion-Aware Speech Generation with Integrated Text Analysis [3.8251125989631674]
本稿では,エンドツーエンドの文脈認識型テキスト音声合成システムを提案する。テキスト入力から伝達された感情を導き出し、自然な、表現力のある音声に対する感情と話者の特徴に焦点を当てた音声を合成する。本システムでは,最先端のTSモデルと比較した場合の競合予測時間性能を示す。
論文参考訳（メタデータ） (2024-10-24T23:18:02Z)
Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の幅広い範囲を模倣する際の課題に直面している。本稿では,喜び,覚醒,支配の制御を容易にするTTSフレームワークを提案する。 TTSトレーニング中に感情的な音声データを必要とせずに、感情的なスタイルの多様性を合成することができる。
論文参考訳（メタデータ） (2024-09-25T07:16:16Z)
Facial Expression-Enhanced TTS: Combining Face Representation and Emotion Intensity for Adaptive Speech [0.13654846342364302]
FEIM-TTSはゼロショット音声合成モデルである。モデルはLSS3、CREMA-D、MELDデータセットを使用してトレーニングされ、適応性を示している。 TTSに感情的なニュアンスを組み込むことで、Webコミックのダイナミックで魅力的な聴覚体験を可能にし、視覚障害者がこれらの物語をより完全に楽しめるようにする。
論文参考訳（メタデータ） (2024-09-24T16:01:12Z)
Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text-to-Speech [51.486112860259595]
EmoCtrl-TTSは感情制御可能なゼロショットTSであり、あらゆる話者に対してNVで高い感情的な音声を生成することができる。高品質な感情音声生成を実現するために、EmoCtrl-TTSは擬似ラベルに基づく27,000時間以上の表現データを用いて訓練される。
論文参考訳（メタデータ） (2024-07-17T00:54:15Z)
Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文参考訳（メタデータ） (2023-12-29T08:06:45Z)
Leveraging Speech PTM, Text LLM, and Emotional TTS for Speech Emotion Recognition [42.09340937787435]
本研究では,異なる音声教師付き事前学習モデルの表現能力について検討した。我々は,感情的に一致したテキストと音声を生成するために,強力な大言語モデル (LLM), GPT-4, 感情的テキスト音声モデル (TTS) を使用した。
論文参考訳（メタデータ） (2023-09-19T03:52:01Z)
ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文参考訳（メタデータ） (2023-05-23T08:52:00Z)
EE-TTS: Emphatic Expressive TTS with Linguistic Information [16.145985004361407]
強調音声と言語情報を用いて表現音声を合成するEmphatic Expressive TTS(EE-TTS)を提案する。 EE-TTSはテキストから適切な強調位置を識別できる強調予測器を含んでいる。実験の結果、EE-TTSは、表現性と自然性において、MOSの改善0.49と0.67でベースラインを上回った。
論文参考訳（メタデータ） (2023-05-20T05:58:56Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)
EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文参考訳（メタデータ） (2021-06-17T08:34:21Z)
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。 i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。 i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文参考訳（メタデータ） (2021-04-03T13:52:47Z)
Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文参考訳（メタデータ） (2021-03-31T04:56:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。