論文の概要: EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model
- arxiv url: http://arxiv.org/abs/2106.09317v1
- Date: Thu, 17 Jun 2021 08:34:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 15:42:02.085102
- Title: EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model
- Title(参考訳): EMOVIE:単純な感情テキスト音声モデルを用いたマンダリン感情音声データセット
- Authors: Chenye Cui, Yi Ren, Jinglin Liu, Feiyang Chen, Rongjie Huang, Ming
Lei, Zhou Zhao
- Abstract要約: 音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
- 参考スコア(独自算出の注目度): 56.75775793011719
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, there has been an increasing interest in neural speech synthesis.
While the deep neural network achieves the state-of-the-art result in
text-to-speech (TTS) tasks, how to generate a more emotional and more
expressive speech is becoming a new challenge to researchers due to the
scarcity of high-quality emotion speech dataset and the lack of advanced
emotional TTS model. In this paper, we first briefly introduce and publicly
release a Mandarin emotion speech dataset including 9,724 samples with audio
files and its emotion human-labeled annotation. After that, we propose a simple
but efficient architecture for emotional speech synthesis called EMSpeech.
Unlike those models which need additional reference audio as input, our model
could predict emotion labels just from the input text and generate more
expressive speech conditioned on the emotion embedding. In the experiment
phase, we first validate the effectiveness of our dataset by an emotion
classification task. Then we train our model on the proposed dataset and
conduct a series of subjective evaluations. Finally, by showing a comparable
performance in the emotional speech synthesis task, we successfully demonstrate
the ability of the proposed model.
- Abstract(参考訳): 近年,ニューラル音声合成への関心が高まっている。
ディープニューラルネットワークは、テキスト音声(TTS)タスクによる最先端の結果を達成する一方で、高品質な感情音声データセットの不足と高度な感情的TTSモデルの欠如により、より感情的で表現力のある音声を生成する方法が、研究者にとって新たな課題となっている。
本稿ではまず,音声ファイルを含む9,724のサンプルと人間ラベル付きアノテーションを含むマンダリン感情音声データセットについて紹介し,公開する。
その後,感情音声合成のための簡易かつ効率的なアーキテクチャであるemspeechを提案する。
入力として追加の参照音声を必要とするモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では,まず感情分類タスクを用いてデータセットの有効性を検証する。
次に,提案するデータセット上でモデルをトレーニングし,主観評価を行う。
最後に,感情音声合成タスクにおいて同等の性能を示すことにより,提案モデルの有効性を実証することに成功した。
関連論文リスト
- Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の幅広い範囲を模倣する際の課題に直面している。
本稿では,喜び,覚醒,支配の制御を容易にするTTSフレームワークを提案する。
TTSトレーニング中に感情的な音声データを必要とせずに、感情的なスタイルの多様性を合成することができる。
論文 参考訳(メタデータ) (2024-09-25T07:16:16Z) - BLSP-Emo: Towards Empathetic Large Speech-Language Models [34.62210186235263]
BLSP-Emoは、音声における意味と感情の両方を理解可能なエンドツーエンドの音声言語モデルを開発するための新しいアプローチである。
実験の結果,BLSP-Emoモデルでは,音声の理解と共感応答の伝達が優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-06T09:02:31Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - EmoSpeech: Guiding FastSpeech2 Towards Emotional Text to Speech [0.0]
最先端の音声モデルは、人間の声にできるだけ近づこうとしている。
感情をモデル化することは、Text-To-Speech (TTS) 研究の不可欠な部分である。
EmoSpeechは、生成された音声におけるMOSスコアと感情認識の精度に関する既存のモデルを上回る。
論文 参考訳(メタデータ) (2023-06-28T19:34:16Z) - Learning Emotional Representations from Imbalanced Speech Data for
Speech Emotion Recognition and Emotional Text-to-Speech [1.4986031916712106]
音声感情表現は、音声感情認識(SER)および感情テキスト音声(TTS)タスクにおいて重要な役割を果たす。
モデルは大多数の中立層に過度に適合し、堅牢で効果的な感情表現を生成できない。
我々は、モデルのトレーニングに拡張アプローチを使用し、不均衡なデータセットから効果的で一般化可能な感情表現を抽出できるようにする。
論文 参考訳(メタデータ) (2023-06-09T07:04:56Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。