論文の概要: EmoSpeech: Guiding FastSpeech2 Towards Emotional Text to Speech
- arxiv url: http://arxiv.org/abs/2307.00024v1
- Date: Wed, 28 Jun 2023 19:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-09 13:49:45.492092
- Title: EmoSpeech: Guiding FastSpeech2 Towards Emotional Text to Speech
- Title(参考訳): EmoSpeech: FastSpeech2が感情テキストから音声へ
- Authors: Daria Diatlova, Vitaly Shutov
- Abstract要約: 最先端の音声モデルは、人間の声にできるだけ近づこうとしている。
感情をモデル化することは、Text-To-Speech (TTS) 研究の不可欠な部分である。
EmoSpeechは、生成された音声におけるMOSスコアと感情認識の精度に関する既存のモデルを上回る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art speech synthesis models try to get as close as possible to
the human voice. Hence, modelling emotions is an essential part of
Text-To-Speech (TTS) research. In our work, we selected FastSpeech2 as the
starting point and proposed a series of modifications for synthesizing
emotional speech. According to automatic and human evaluation, our model,
EmoSpeech, surpasses existing models regarding both MOS score and emotion
recognition accuracy in generated speech. We provided a detailed ablation study
for every extension to FastSpeech2 architecture that forms EmoSpeech. The
uneven distribution of emotions in the text is crucial for better, synthesized
speech and intonation perception. Our model includes a conditioning mechanism
that effectively handles this issue by allowing emotions to contribute to each
phone with varying intensity levels. The human assessment indicates that
proposed modifications generate audio with higher MOS and emotional
expressiveness.
- Abstract(参考訳): 最先端の音声合成モデルは、人間の声にできるだけ近づこうとしている。
したがって、感情のモデル化はテキスト音声(TTS)研究の不可欠な部分である。
本研究では,fastspeech2を出発点として選択し,感情音声合成のための一連の修正を提案する。
自動評価と人的評価により,我々のモデルであるEmoSpeechは,生成音声におけるMOSスコアと感情認識精度の両方に関する既存モデルを上回った。
我々は、EmoSpeechを形成するFastSpeech2アーキテクチャのすべての拡張について、詳細なアブレーション研究を行った。
テキスト中の感情の不均一な分布は、より良い、合成された音声とイントネーション知覚に不可欠である。
私たちのモデルには、さまざまな強度レベルで各携帯電話に感情が貢献できるようにすることで、この問題を効果的に処理するコンディショニングメカニズムが含まれています。
人間の評価は、提案された修正は、より高いMOSと感情表現性を持つ音声を生成することを示している。
関連論文リスト
- Learning Emotional Representations from Imbalanced Speech Data for
Speech Emotion Recognition and Emotional Text-to-Speech [1.4986031916712106]
音声感情表現は、音声感情認識(SER)および感情テキスト音声(TTS)タスクにおいて重要な役割を果たす。
モデルは大多数の中立層に過度に適合し、堅牢で効果的な感情表現を生成できない。
我々は、モデルのトレーニングに拡張アプローチを使用し、不均衡なデータセットから効果的で一般化可能な感情表現を抽出できるようにする。
論文 参考訳(メタデータ) (2023-06-09T07:04:56Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Emotion Selectable End-to-End Text-based Speech Editing [63.346825713704625]
Emo-CampNet (Emotion CampNet) は感情選択可能なテキストベースの音声編集モデルである。
テキストベースの音声編集において、生成した音声の感情を効果的に制御することができる。
未知の話者のスピーチを編集することもできる。
論文 参考訳(メタデータ) (2022-12-20T12:02:40Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Emotional Prosody Control for Speech Generation [7.66200737962746]
本研究では,ユーザが連続的かつ有意義な感情空間から生成した音声の感情を選択することができるテキスト・トゥ・スピーチ(TTS)システムを提案する。
提案システムでは,任意の話者のスタイルでテキストから音声を生成することができる。
論文 参考訳(メタデータ) (2021-11-07T08:52:04Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。