論文の概要: Data Augmentation with Unsupervised Speaking Style Transfer for Speech
Emotion Recognition
- arxiv url: http://arxiv.org/abs/2211.08843v1
- Date: Wed, 16 Nov 2022 11:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 16:35:47.260815
- Title: Data Augmentation with Unsupervised Speaking Style Transfer for Speech
Emotion Recognition
- Title(参考訳): 音声感情認識のための教師なし発話スタイル転送によるデータ拡張
- Authors: Leyuan Qu, Wei Wang, Taihao Li, Cornelius Weber, Stefan Wermter and
Fuji Ren
- Abstract要約: EmoAugは感情表現を増強するための新しいスタイル転送モデルである。
EmoAugは話者のアイデンティティとセマンティックコンテンツを保持しながら、様々な発話スタイルを転送できることを示す。
また、EmoAugによって強化されたデータを用いてSERモデルをトレーニングし、最先端の教師付き自己監督手法を超越するだけでなく、データ不均衡による過度に適合する問題を克服することを示した。
- 参考スコア(独自算出の注目度): 21.8725607786885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, the performance of Speech Emotion Recognition (SER) systems is
mainly constrained by the absence of large-scale labelled corpora. Data
augmentation is regarded as a promising approach, which borrows methods from
Automatic Speech Recognition (ASR), for instance, perturbation on speed and
pitch, or generating emotional speech utilizing generative adversarial
networks. In this paper, we propose EmoAug, a novel style transfer model to
augment emotion expressions, in which a semantic encoder and a paralinguistic
encoder represent verbal and non-verbal information respectively. Additionally,
a decoder reconstructs speech signals by conditioning on the aforementioned two
information flows in an unsupervised fashion. Once training is completed,
EmoAug enriches expressions of emotional speech in different prosodic
attributes, such as stress, rhythm and intensity, by feeding different styles
into the paralinguistic encoder. In addition, we can also generate similar
numbers of samples for each class to tackle the data imbalance issue.
Experimental results on the IEMOCAP dataset demonstrate that EmoAug can
successfully transfer different speaking styles while retaining the speaker
identity and semantic content. Furthermore, we train a SER model with data
augmented by EmoAug and show that it not only surpasses the state-of-the-art
supervised and self-supervised methods but also overcomes overfitting problems
caused by data imbalance. Some audio samples can be found on our demo website.
- Abstract(参考訳): 現在,音声感情認識(SER)システムの性能は,大規模ラベル付きコーパスの欠如によって主に制約されている。
データ拡張は、例えば速度とピッチの摂動や、生成的敵ネットワークを利用した感情的な音声を生成するなど、自動音声認識(ASR)の手法を借りた有望なアプローチとみなされる。
本稿では,意味エンコーダとパラ言語エンコーダがそれぞれ言語情報と非言語情報を表す,感情表現を強調する新しいスタイル転送モデルであるemoaugを提案する。
さらに、デコーダは、前述の2つの情報の流れを教師なしで条件付けして音声信号を再構成する。
訓練が完了すると、エモーグは、パラ言語エンコーダに異なるスタイルを与えることで、ストレス、リズム、強度といった様々な韻律的特徴による感情的なスピーチの表現を豊かにする。
さらに、データ不均衡問題に取り組むために、各クラスに類似したサンプル数を生成することもできる。
IEMOCAPデータセットの実験結果は、EmoAugが話者のアイデンティティとセマンティックコンテンツを保持しながら、異なる話しスタイルを転送できることを示した。
さらに,emoaug によって拡張されたデータを用いて ser モデルを訓練し,データ不均衡に起因する過剰フィッティング問題を克服した。
いくつかのオーディオサンプルは、私たちのデモwebサイトにある。
関連論文リスト
- EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。
人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。
条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文 参考訳(メタデータ) (2024-11-04T21:33:56Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。