論文の概要: Emotional Voice Conversion: Theory, Databases and ESD
- arxiv url: http://arxiv.org/abs/2105.14762v1
- Date: Mon, 31 May 2021 07:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 04:22:03.563080
- Title: Emotional Voice Conversion: Theory, Databases and ESD
- Title(参考訳): 感情音声変換:理論・データベース・ESD
- Authors: Kun Zhou, Berrak Sisman, Rui Liu, Haizhou Li
- Abstract要約: 新たな感情音声データベース(ESD)の開発をモチベーションとする。
ESDデータベースは、10人のネイティブイングリッシュと10人のネイティブ中国語話者によって話される350のパラレル発話で構成されている。
本データベースは,多言語・多言語間音声変換研究に適したデータベースである。
- 参考スコア(独自算出の注目度): 84.62083515557886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we first provide a review of the state-of-the-art emotional
voice conversion research, and the existing emotional speech databases. We then
motivate the development of a novel emotional speech database (ESD) that
addresses the increasing research need. With this paper, the ESD database is
now made available to the research community. The ESD database consists of 350
parallel utterances spoken by 10 native English and 10 native Chinese speakers
and covers 5 emotion categories (neutral, happy, angry, sad and surprise). More
than 29 hours of speech data were recorded in a controlled acoustic
environment. The database is suitable for multi-speaker and cross-lingual
emotional voice conversion studies. As case studies, we implement several
state-of-the-art emotional voice conversion systems on the ESD database. This
paper provides a reference study on ESD in conjunction with its release.
- Abstract(参考訳): 本稿では,まず,最先端の感情音声変換研究と既存の感情音声データベースについて概観する。
そこで我々は,研究ニーズの増大に対処する新たな感情音声データベース(ESD)の開発を動機づける。
本論文では,ESDデータベースを研究コミュニティで利用可能にしている。
esdデータベースは10のネイティブ英語と10のネイティブ中国語話者が話す350の並列発話で構成され、5つの感情カテゴリ(中性、幸福、怒り、悲しみ、驚き)をカバーしている。
29時間以上の音声データを制御された環境下で記録した。
データベースは、マルチスピーカーおよびクロスリンガル感情音声変換研究に適している。
ケーススタディでは、ESDデータベース上に複数の最先端の感情音声変換システムを実装している。
本稿では,ESDのレファレンス研究とリリースについて述べる。
関連論文リスト
- nEMO: Dataset of Emotional Speech in Polish [0.0]
nEMO(nEMO)は、ポーランド語で書かれた感情表現のコーパスである。
データセットは、9人の俳優が6つの感情状態を描いた3時間以上のサンプルで構成されている。
使用したテキストはポーランド語の音声学を適切に表現するために慎重に選択された。
論文 参考訳(メタデータ) (2024-04-09T13:18:52Z) - EMOVOME Database: Advancing Emotion Recognition in Speech Beyond Staged Scenarios [2.1455880234227624]
私たちはEMOVOME(Emotional Voice Messages)データベースをリリースしました。
話者非依存型音声感情認識(SER)モデルを,標準的な音響特徴セットとトランスフォーマーモデルを用いて評価した。
EMOVOMEの結果はアノテータラベルによって変化し、専門家と非専門家のアノテーションを組み合わせる際に、より良い結果と公平性を示す。
論文 参考訳(メタデータ) (2024-03-04T16:13:39Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - Converting Anyone's Emotion: Towards Speaker-Independent Emotional Voice
Conversion [83.14445041096523]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、ある状態から別の状態へ音声の感情を変換することを目的としている。
パラレルデータを必要とせずに、誰の感情も変換できる話者非依存の感情音声変換フレームワークを提案する。
実験の結果,提案した話者非依存のフレームワークは,目に見える話者と目に見えない話者の双方に対して,競争的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-05-13T13:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。