論文の概要: Improving Speech Emotion Recognition with Unsupervised Speaking Style
Transfer
- arxiv url: http://arxiv.org/abs/2211.08843v2
- Date: Sun, 10 Sep 2023 09:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 22:49:39.139769
- Title: Improving Speech Emotion Recognition with Unsupervised Speaking Style
Transfer
- Title(参考訳): 教師なし発話スタイル転送による音声感情認識の改善
- Authors: Leyuan Qu, Wei Wang, Cornelius Weber, Pengcheng Yue, Taihao Li and
Stefan Wermter
- Abstract要約: EmoAugは、感情表現を高め、音声の感情認識タスクにおけるデータ不足問題に取り組むために設計された、新しいスタイル転送モデルである。
EmoAugは話者のアイデンティティとセマンティックコンテンツを保持しながら、様々な発話スタイルを転送できることを示す。
また、EmoAugによって強化されたデータを用いてSERモデルを訓練し、その拡張モデルは最先端の教師付きおよび自己教師付き手法を超越していることを示す。
- 参考スコア(独自算出の注目度): 23.981846601570243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can effortlessly modify various prosodic attributes, such as the
placement of stress and the intensity of sentiment, to convey a specific
emotion while maintaining consistent linguistic content. Motivated by this
capability, we propose EmoAug, a novel style transfer model designed to enhance
emotional expression and tackle the data scarcity issue in speech emotion
recognition tasks. EmoAug consists of a semantic encoder and a paralinguistic
encoder that represent verbal and non-verbal information respectively.
Additionally, a decoder reconstructs speech signals by conditioning on the
aforementioned two information flows in an unsupervised fashion. Once training
is completed, EmoAug enriches expressions of emotional speech with different
prosodic attributes, such as stress, rhythm and intensity, by feeding different
styles into the paralinguistic encoder. EmoAug enables us to generate similar
numbers of samples for each class to tackle the data imbalance issue as well.
Experimental results on the IEMOCAP dataset demonstrate that EmoAug can
successfully transfer different speaking styles while retaining the speaker
identity and semantic content. Furthermore, we train a SER model with data
augmented by EmoAug and show that the augmented model not only surpasses the
state-of-the-art supervised and self-supervised methods but also overcomes
overfitting problems caused by data imbalance. Some audio samples can be found
on our demo website.
- Abstract(参考訳): 人間はストレスの配置や感情の強さといった様々な韻律的属性を無力に修正し、一貫した言語的内容を維持しながら特定の感情を伝達することができる。
そこで本研究では,感情表現の向上と音声感情認識タスクにおけるデータ不足問題への対処を目的とした,新しいスタイル伝達モデルであるEmoAugを提案する。
EmoAugは意味エンコーダとパラ言語エンコーダで構成され、それぞれ言語情報と非言語情報を表す。
さらに、デコーダは、前述の2つの情報の流れを教師なしで条件付けして音声信号を再構成する。
訓練が完了すると、エモーグはパラ言語エンコーダに異なるスタイルを与えることで、ストレス、リズム、強度といった異なる韻律的特徴を持つ感情的なスピーチの表現を豊かにする。
EmoAugを使うことで、各クラスに対して同様の数のサンプルを生成して、データ不均衡の問題にも対処できます。
IEMOCAPデータセットの実験結果は、EmoAugが話者のアイデンティティとセマンティックコンテンツを保持しながら、異なる話しスタイルを転送できることを示した。
さらに,emoaugによって拡張されたデータを用いてserモデルを訓練し,その拡張モデルが最先端の教師あり・自己教師あり手法を超えるだけでなく,データ不均衡に起因する過剰フィット問題を克服することを示す。
いくつかのオーディオサンプルは、私たちのデモwebサイトにある。
関連論文リスト
- EmoSphere++: Emotion-Controllable Zero-Shot Text-to-Speech via Emotion-Adaptive Spherical Vector [26.656512860918262]
EmoSphere++は感情制御可能なゼロショットTSモデルで、感情のスタイルや強度をコントロールでき、自然な人間の音声に似ています。
人間のアノテーションを使わずに感情のスタイルや強度をモデル化する,感情適応型球面ベクトルを新たに導入する。
条件付きフローマッチングに基づくデコーダを用いて,数ステップのサンプリングで高品質で表現力のある感情的TSを実現する。
論文 参考訳(メタデータ) (2024-11-04T21:33:56Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。