論文の概要: Learning Emotional Representations from Imbalanced Speech Data for
Speech Emotion Recognition and Emotional Text-to-Speech
- arxiv url: http://arxiv.org/abs/2306.05709v1
- Date: Fri, 9 Jun 2023 07:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 14:28:47.173319
- Title: Learning Emotional Representations from Imbalanced Speech Data for
Speech Emotion Recognition and Emotional Text-to-Speech
- Title(参考訳): 不均衡音声データによる感情表現の学習 : 感情認識と感情音声合成
- Authors: Shijun Wang, J\'on Gu{\dh}nason, Damian Borth
- Abstract要約: 音声感情表現は、音声感情認識(SER)および感情テキスト音声(TTS)タスクにおいて重要な役割を果たす。
モデルは大多数の中立層に過度に適合し、堅牢で効果的な感情表現を生成できない。
我々は、モデルのトレーニングに拡張アプローチを使用し、不均衡なデータセットから効果的で一般化可能な感情表現を抽出できるようにする。
- 参考スコア(独自算出の注目度): 1.4986031916712106
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Effective speech emotional representations play a key role in Speech Emotion
Recognition (SER) and Emotional Text-To-Speech (TTS) tasks. However, emotional
speech samples are more difficult and expensive to acquire compared with
Neutral style speech, which causes one issue that most related works
unfortunately neglect: imbalanced datasets. Models might overfit to the
majority Neutral class and fail to produce robust and effective emotional
representations. In this paper, we propose an Emotion Extractor to address this
issue. We use augmentation approaches to train the model and enable it to
extract effective and generalizable emotional representations from imbalanced
datasets. Our empirical results show that (1) for the SER task, the proposed
Emotion Extractor surpasses the state-of-the-art baseline on three imbalanced
datasets; (2) the produced representations from our Emotion Extractor benefit
the TTS model, and enable it to synthesize more expressive speech.
- Abstract(参考訳): 効果的な音声感情表現は、音声感情認識(SER)および感情テキスト音声(TTS)タスクにおいて重要な役割を果たす。
しかし、感情的な音声サンプルは、中立的なスタイルの音声よりも入手が難しく、高価である。
モデルは大多数の中立層に過度に適合し、堅牢で効果的な感情表現を生成できない。
本稿では,この問題に対処する感情的エクストラクタを提案する。
我々は、モデルのトレーニングに拡張アプローチを使用し、不均衡なデータセットから効果的で一般化可能な感情表現を抽出できるようにする。
実験の結果,(1)SERタスクにおいて,提案した感情指数は3つの不均衡データセットの最先端ベースラインを超え,(2)感情指数から生成された表現はTSモデルに寄与し,より表現力のある音声を合成できることがわかった。
関連論文リスト
- Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - EmoSpeech: Guiding FastSpeech2 Towards Emotional Text to Speech [0.0]
最先端の音声モデルは、人間の声にできるだけ近づこうとしている。
感情をモデル化することは、Text-To-Speech (TTS) 研究の不可欠な部分である。
EmoSpeechは、生成された音声におけるMOSスコアと感情認識の精度に関する既存のモデルを上回る。
論文 参考訳(メタデータ) (2023-06-28T19:34:16Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Analysis of impact of emotions on target speech extraction and speech
separation [30.06415464303977]
ブラインド音声分離(BSS)とターゲット音声抽出(TSE)における感情の影響について検討する。
我々は,BSSが感情に対して比較的堅牢であるのに対し,ターゲット話者の発話を識別・抽出する必要があるTSEは感情に対してはるかに敏感であることを示した。
論文 参考訳(メタデータ) (2022-08-15T09:47:13Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。