論文の概要: EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting
- arxiv url: http://arxiv.org/abs/2504.12867v1
- Date: Thu, 17 Apr 2025 11:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:38:32.368935
- Title: EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting
- Title(参考訳): EmoVoice:フリースタイルテキストプロンプトを用いたLLMに基づく感情テキスト音声モデル
- Authors: Guanrou Yang, Chen Yang, Qian Chen, Ziyang Ma, Wenxi Chen, Wen Wang, Tianrui Wang, Yifan Yang, Zhikang Niu, Wenrui Liu, Fan Yu, Zhihao Du, Zhifu Gao, ShiLiang Zhang, Xie Chen,
- Abstract要約: EmoVoiceは感情制御可能なTSモデルで、大きな言語モデル(LLM)を利用して、きめ細かい自然言語の感情制御を可能にする。
EmoVoice-DBは、表現力のある音声と自然言語記述によるきめ細かい感情ラベルを特徴とする、高品質な40時間感情データセットである。
- 参考スコア(独自算出の注目度): 48.56693150755667
- License:
- Abstract: Human speech goes beyond the mere transfer of information; it is a profound exchange of emotions and a connection between individuals. While Text-to-Speech (TTS) models have made huge progress, they still face challenges in controlling the emotional expression in the generated speech. In this work, we propose EmoVoice, a novel emotion-controllable TTS model that exploits large language models (LLMs) to enable fine-grained freestyle natural language emotion control, and a phoneme boost variant design that makes the model output phoneme tokens and audio tokens in parallel to enhance content consistency, inspired by chain-of-thought (CoT) and modality-of-thought (CoM) techniques. Besides, we introduce EmoVoice-DB, a high-quality 40-hour English emotion dataset featuring expressive speech and fine-grained emotion labels with natural language descriptions. EmoVoice achieves state-of-the-art performance on the English EmoVoice-DB test set using only synthetic training data, and on the Chinese Secap test set using our in-house data. We further investigate the reliability of existing emotion evaluation metrics and their alignment with human perceptual preferences, and explore using SOTA multimodal LLMs GPT-4o-audio and Gemini to assess emotional speech. Demo samples are available at https://anonymous.4open.science/r/EmoVoice-DF55. Dataset, code, and checkpoints will be released.
- Abstract(参考訳): 人間の言動は単なる情報伝達以上のものであり、感情と個人間のつながりの深遠な交換である。
Text-to-Speech(TTS)モデルは大きな進歩を遂げているが、生成した音声の感情表現を制御する上ではまだ課題に直面している。
本研究は,大規模言語モデル(LLM)を利用した感情制御可能なTTSモデルであるEmoVoiceを提案し,そのモデルが並列に音素トークンと音声トークンを出力し,コンテントの整合性を高めるための変奏的設計を,チェーン・オブ・シント(CoT)とモーダル・オブ・シント(CoM)技術にインスパイアされた。
EmoVoice-DBは、表現型音声と自然言語記述によるきめ細かな感情ラベルを特徴とする、高品質な40時間英語感情データセットである。
EmoVoiceは、合成トレーニングデータのみを用いて、英語EmoVoice-DBテストセットと、私たちの社内データを用いた中国語Secapテストセットで、最先端のパフォーマンスを達成する。
さらに、既存の感情評価指標の信頼性と人間の知覚的嗜好との整合性について検討し、SOTAマルチモーダルLPM GPT-4o-audio と Gemini を用いて感情音声の評価を行う。
デモサンプルはhttps://anonymous.4open.science/r/EmoVoice-DF55で公開されている。
データセット、コード、チェックポイントがリリースされる。
関連論文リスト
- EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
EMOVA (EMotionally Omni-present Voice Assistant) を提案する。
セマンティック・アコースティック・ディコンタングルド・音声トークンーザでは、オムニモーダルアライメントが視覚言語や音声能力をさらに向上させることに驚く。
EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文 参考訳(メタデータ) (2024-09-26T16:44:02Z) - Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の全スペクトルを伝達する上で困難に直面している。
本稿では,3つの感情的次元 – 快楽,覚醒,支配 – に対してフレキシブルなユーザコントロールを提供するTTSフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - BLSP-Emo: Towards Empathetic Large Speech-Language Models [34.62210186235263]
BLSP-Emoは、音声における意味と感情の両方を理解可能なエンドツーエンドの音声言語モデルを開発するための新しいアプローチである。
実験の結果,BLSP-Emoモデルでは,音声の理解と共感応答の伝達が優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-06T09:02:31Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。