論文の概要: Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training
- arxiv url: http://arxiv.org/abs/2103.16809v1
- Date: Wed, 31 Mar 2021 04:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 02:37:21.179512
- Title: Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training
- Title(参考訳): テキストから音声への限定音声変換:2段階連続訓練
- Authors: Kun Zhou, Berrak Sisman, Haizhou Li
- Abstract要約: 感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
- 参考スコア(独自算出の注目度): 91.95855310211176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotional voice conversion (EVC) aims to change the emotional state of an
utterance while preserving the linguistic content and speaker identity. In this
paper, we propose a novel 2-stage training strategy for sequence-to-sequence
emotional voice conversion with a limited amount of emotional speech data. We
note that the proposed EVC framework leverages text-to-speech (TTS) as they
share a common goal that is to generate high-quality expressive voice. In stage
1, we perform style initialization with a multi-speaker TTS corpus, to
disentangle speaking style and linguistic content. In stage 2, we perform
emotion training with a limited amount of emotional speech data, to learn how
to disentangle emotional style and linguistic information from the speech. The
proposed framework can perform both spectrum and prosody conversion and
achieves significant improvement over the state-of-the-art baselines in both
objective and subjective evaluation.
- Abstract(参考訳): 感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら発話の感情状態を変えることを目的としている。
本稿では,感情音声データに制限のあるシーケンス・ツー・シーケンスの感情音声変換のための2段階学習手法を提案する。
提案するECVフレームワークは,高品質な表現音声を生成するための共通の目標を共有するため,テキスト音声(TTS)を利用する。
ステージ1では、多話者TSコーパスを用いてスタイル初期化を行い、話し言葉のスタイルと言語内容を切り離す。
ステージ2では、限られた感情的な音声データを用いて感情訓練を行い、感情的なスタイルや言語情報を音声から切り離す方法を学ぶ。
提案手法は,スペクトル変換と韻律変換の両方が可能であり,客観的および主観的評価の両面において,最先端のベースラインよりも大幅に向上する。
関連論文リスト
- Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の幅広い範囲を模倣する際の課題に直面している。
本稿では,喜び,覚醒,支配の制御を容易にするTTSフレームワークを提案する。
TTSトレーニング中に感情的な音声データを必要とせずに、感情的なスタイルの多様性を合成することができる。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - EmoSpeech: Guiding FastSpeech2 Towards Emotional Text to Speech [0.0]
最先端の音声モデルは、人間の声にできるだけ近づこうとしている。
感情をモデル化することは、Text-To-Speech (TTS) 研究の不可欠な部分である。
EmoSpeechは、生成された音声におけるMOSスコアと感情認識の精度に関する既存のモデルを上回る。
論文 参考訳(メタデータ) (2023-06-28T19:34:16Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Decoupling Speaker-Independent Emotions for Voice Conversion Via
Source-Filter Networks [14.55242023708204]
本研究では,話者に依存しない感情特徴の適切なフィルタリングを実現するために,ソースフィルタに基づく感情VCモデル(SFEVC)を提案する。
我々のSFEVCモデルはマルチチャネルエンコーダと感情分離エンコーダと1つのデコーダで構成されている。
論文 参考訳(メタデータ) (2021-10-04T03:14:48Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。