論文の概要: EmoDiff: Intensity Controllable Emotional Text-to-Speech with Soft-Label
Guidance
- arxiv url: http://arxiv.org/abs/2211.09496v1
- Date: Thu, 17 Nov 2022 12:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:03:04.122116
- Title: EmoDiff: Intensity Controllable Emotional Text-to-Speech with Soft-Label
Guidance
- Title(参考訳): EmoDiff: ソフトラベル誘導による感情テキストの強調制御
- Authors: Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
- Abstract要約: 本研究では,感情強度を操作可能な拡散型TSモデルであるEmoDiffを提案する。
EmoDiffは、指定された感情とtextitNeutralの値がそれぞれ$alpha$と$1-alpha$に設定されたソフトラベルでガイドされる。
実験の結果,EmoDiffは高い声質を維持しながら感情の強度を正確に制御できることがわかった。
- 参考スコア(独自算出の注目度): 24.17272663912287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although current neural text-to-speech (TTS) models are able to generate
high-quality speech, intensity controllable emotional TTS is still a
challenging task. Most existing methods need external optimizations for
intensity calculation, leading to suboptimal results or degraded quality. In
this paper, we propose EmoDiff, a diffusion-based TTS model where emotion
intensity can be manipulated by a proposed soft-label guidance technique
derived from classifier guidance. Specifically, instead of being guided with a
one-hot vector for the specified emotion, EmoDiff is guided with a soft label
where the value of the specified emotion and \textit{Neutral} is set to
$\alpha$ and $1-\alpha$ respectively. The $\alpha$ here represents the emotion
intensity and can be chosen from 0 to 1. Our experiments show that EmoDiff can
precisely control the emotion intensity while maintaining high voice quality.
Moreover, diverse speech with specified emotion intensity can be generated by
sampling in the reverse denoising process.
- Abstract(参考訳): 現在のニューラルテキスト音声(TTS)モデルは高品質な音声を生成することができるが、強度制御可能な感情的TSは依然として難しい課題である。
既存のほとんどの手法では、強度計算のための外部最適化が必要であり、最適化された結果や劣化した品質につながる。
本稿では,分類器誘導に基づくソフトラベル誘導手法により,感情インテンシティを操作可能な拡散型ttsモデルであるemodiffを提案する。
具体的には、指定された感情の1ホットベクトルでガイドされる代わりに、EmoDiff は、指定された感情の値と \textit{Neutral} がそれぞれ$\alpha$ と $1-\alpha$ に設定されたソフトラベルでガイドされる。
ここでの$\alpha$は感情の強さを表し、0から1に選択できる。
実験の結果,EmoDiffは高い声質を維持しながら感情の強度を正確に制御できることがわかった。
さらに、逆復調過程におけるサンプリングにより、特定の感情強度を持つ多様な音声を生成することができる。
関連論文リスト
- EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。
人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。
条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文 参考訳(メタデータ) (2024-11-04T21:33:56Z) - EmoKnob: Enhance Voice Cloning with Fine-Grained Emotion Control [7.596581158724187]
EmoKnob(エモノブ)は、任意の感情の少数の実証的なサンプルを用いて、音声合成におけるきめ細かい感情制御を可能にするフレームワークである。
我々の感情制御フレームワークは、音声に感情を効果的に埋め込んで、商用TTSサービスの感情表現性を超越していることを示す。
論文 参考訳(メタデータ) (2024-10-01T01:29:54Z) - Learning Frame-Wise Emotion Intensity for Audio-Driven Talking-Head Generation [59.81482518924723]
そこで本研究では,発話頭生成のための微妙なシフトを捕捉し,生成する手法を提案する。
我々は,強度レベルを正確に制御し,様々な感情を生成できる話頭フレームワークを開発した。
提案手法の有効性を実験・解析により検証した。
論文 参考訳(メタデータ) (2024-09-29T01:02:01Z) - EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech [34.03787613163788]
EmoSphere-TTSは球面感情ベクトルを用いて表現的感情音声を合成し、合成音声の感情的スタイルと強度を制御する。
マルチアスペクト特性を反映して生成した音声の品質を向上させるための2つの条件付き対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T01:40:29Z) - MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis [70.06396781553191]
MM-TTS(Multimodal Emotional Text-to-Speech System)は、複数のモーダルからの感情的手がかりを利用して、高表現的で感情的に共鳴する音声を生成する統合フレームワークである。
Emotion Prompt Alignment Module (EP-Align),Emotion Embedding-induced TTS (EMI-TTS),Emotion Embedding-induced TTS (Emotion Embedding-induced TTS) の2つの主要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - EmoSpeaker: One-shot Fine-grained Emotion-Controlled Talking Face
Generation [34.5592743467339]
微粒な顔のアニメーションを生成する視覚属性誘導型オーディオデカップラを提案する。
より正確な感情表現を実現するために,よりきめ細かな感情係数予測モジュールを導入する。
提案手法であるEmoSpeakerは,表情の変動や唇の同期の点で,既存の感情音声生成法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-02T14:04:18Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Fine-grained Emotional Control of Text-To-Speech: Learning To Rank
Inter- And Intra-Class Emotion Intensities [1.4986031916712106]
State-of-the-art Text-To-Speech (TTS)モデルは高品質な音声を生成することができる。
本稿では,クラス間距離とクラス内距離の両方を考慮した,きめ細かい制御可能な感情的TSを提案する。
我々の実験は、制御性、感情、自然性の2つの最先端制御可能なTSモデルを超えることを示した。
論文 参考訳(メタデータ) (2023-03-02T09:09:03Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。