論文の概要: Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text-to-Speech
- arxiv url: http://arxiv.org/abs/2407.12229v2
- Date: Tue, 17 Sep 2024 10:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 21:41:27.948054
- Title: Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text-to-Speech
- Title(参考訳): Laugh Now Cry later: Flow-Matching-based Zero-Shot Text-to-Speechの時間変化感情状態制御
- Authors: Haibin Wu, Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Daniel Tompkins, Chung-Hsien Tsai, Canrun Li, Zhen Xiao, Sheng Zhao, Jinyu Li, Naoyuki Kanda,
- Abstract要約: EmoCtrl-TTSは感情制御可能なゼロショットTSであり、あらゆる話者に対してNVで高い感情的な音声を生成することができる。
高品質な感情音声生成を実現するために、EmoCtrl-TTSは擬似ラベルに基づく27,000時間以上の表現データを用いて訓練される。
- 参考スコア(独自算出の注目度): 51.486112860259595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People change their tones of voice, often accompanied by nonverbal vocalizations (NVs) such as laughter and cries, to convey rich emotions. However, most text-to-speech (TTS) systems lack the capability to generate speech with rich emotions, including NVs. This paper introduces EmoCtrl-TTS, an emotion-controllable zero-shot TTS that can generate highly emotional speech with NVs for any speaker. EmoCtrl-TTS leverages arousal and valence values, as well as laughter embeddings, to condition the flow-matching-based zero-shot TTS. To achieve high-quality emotional speech generation, EmoCtrl-TTS is trained using more than 27,000 hours of expressive data curated based on pseudo-labeling. Comprehensive evaluations demonstrate that EmoCtrl-TTS excels in mimicking the emotions of audio prompts in speech-to-speech translation scenarios. We also show that EmoCtrl-TTS can capture emotion changes, express strong emotions, and generate various NVs in zero-shot TTS. See https://aka.ms/emoctrl-tts for demo samples.
- Abstract(参考訳): 人々は声のトーンを変え、笑いや泣き声などの非言語発声(NV)を伴って、豊かな感情を伝える。
しかし、ほとんどのTTSシステムは、NVを含む豊かな感情を持つ音声を生成する能力に欠ける。
本稿では,感情制御可能なゼロショットTSであるEmoCtrl-TTSについて紹介する。
EmoCtrl-TTSは、フローマッチングベースのゼロショットTSを条件に、覚醒値と価値、および笑い埋め込みを利用する。
高品質な感情音声生成を実現するために、EmoCtrl-TTSは擬似ラベルに基づく27,000時間以上の表現データを用いて訓練される。
EmoCtrl-TTSは、音声から音声への翻訳シナリオにおいて、音声プロンプトの感情を模倣することに優れていることを示す。
また、EmoCtrl-TTSは、感情の変化を捉え、強い感情を表現し、ゼロショットTSで様々なNVを生成することができることを示す。
デモサンプルはhttps://aka.ms/emoctrl-ttsを参照。
関連論文リスト
- Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の幅広い範囲を模倣する際の課題に直面している。
本稿では,喜び,覚醒,支配の制御を容易にするTTSフレームワークを提案する。
TTSトレーニング中に感情的な音声データを必要とせずに、感情的なスタイルの多様性を合成することができる。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis [70.06396781553191]
MM-TTS(Multimodal Emotional Text-to-Speech System)は、複数のモーダルからの感情的手がかりを利用して、高表現的で感情的に共鳴する音声を生成する統合フレームワークである。
Emotion Prompt Alignment Module (EP-Align),Emotion Embedding-induced TTS (EMI-TTS),Emotion Embedding-induced TTS (Emotion Embedding-induced TTS) の2つの主要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like [49.2096391012794]
ELaTEはゼロショットのTSであり、短い音声プロンプトに基づいて、あらゆる話者の自然な笑い声を生成することができる。
本研究では,条件付きフローマッチングに基づくゼロショットTSに基づくモデルを開発した。
ELaTE は従来のモデルに比べて格段に高い品質と制御性で笑い音声を生成することができることを示す。
論文 参考訳(メタデータ) (2024-02-12T02:58:10Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Fine-grained Emotional Control of Text-To-Speech: Learning To Rank
Inter- And Intra-Class Emotion Intensities [1.4986031916712106]
State-of-the-art Text-To-Speech (TTS)モデルは高品質な音声を生成することができる。
本稿では,クラス間距離とクラス内距離の両方を考慮した,きめ細かい制御可能な感情的TSを提案する。
我々の実験は、制御性、感情、自然性の2つの最先端制御可能なTSモデルを超えることを示した。
論文 参考訳(メタデータ) (2023-03-02T09:09:03Z) - Emotional Prosody Control for Speech Generation [7.66200737962746]
本研究では,ユーザが連続的かつ有意義な感情空間から生成した音声の感情を選択することができるテキスト・トゥ・スピーチ(TTS)システムを提案する。
提案システムでは,任意の話者のスタイルでテキストから音声を生成することができる。
論文 参考訳(メタデータ) (2021-11-07T08:52:04Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。