論文の概要: In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised
Representations and Neural Vocoder-based Resynthesis
- arxiv url: http://arxiv.org/abs/2306.01916v1
- Date: Fri, 2 Jun 2023 21:02:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 23:11:30.431907
- Title: In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised
Representations and Neural Vocoder-based Resynthesis
- Title(参考訳): 絡み合った自己スーパービジョン表現とニューラルヴォコーダを用いた音声感情変換
- Authors: Navin Raj Prabhu, Nale Lehmann-Willenbrock and Timo Gerkmann
- Abstract要約: 本稿では,自己教師ネットワークを用いて発話の語彙的,話者的,感情的な内容を切り離す手法を提案する。
次に、HiFiGANボコーダを用いて、不整合表現をターゲット感情の音声信号に再合成する。
その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。
- 参考スコア(独自算出の注目度): 15.16865739526702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech emotion conversion aims to convert the expressed emotion of a spoken
utterance to a target emotion while preserving the lexical information and the
speaker's identity. In this work, we specifically focus on in-the-wild emotion
conversion where parallel data does not exist, and the problem of disentangling
lexical, speaker, and emotion information arises. In this paper, we introduce a
methodology that uses self-supervised networks to disentangle the lexical,
speaker, and emotional content of the utterance, and subsequently uses a
HiFiGAN vocoder to resynthesise the disentangled representations to a speech
signal of the targeted emotion. For better representation and to achieve
emotion intensity control, we specifically focus on the aro\-usal dimension of
continuous representations, as opposed to performing emotion conversion on
categorical representations. We test our methodology on the large in-the-wild
MSP-Podcast dataset. Results reveal that the proposed approach is aptly
conditioned on the emotional content of input speech and is capable of
synthesising natural-sounding speech for a target emotion. Results further
reveal that the methodology better synthesises speech for mid-scale arousal (2
to 6) than for extreme arousal (1 and 7).
- Abstract(参考訳): 音声感情変換は、語彙情報と話者のアイデンティティを維持しつつ、話し言葉の表現された感情をターゲット感情に変換することを目的としている。
本稿では,並列データが存在しない場合の感情変換に着目し,語彙的,話者的,感情的情報を分離する問題について述べる。
本稿では,自己教師付きネットワークを用いて発話の語彙的,話者的,感情的内容の分離を行い,その後,ヒフィガンボコーダを用いて対象感情の音声信号に対する不連続表現の再合成を行う手法を提案する。
より優れた表現と感情インテンシティ制御を達成するために,我々は,カテゴリー表現の感情変換ではなく,連続表現のaro-usal次元に着目した。
MSP-Podcastデータセットにおいて,本手法を検証した。
その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。
さらに, 極端覚醒(1, 7)よりも中規模覚醒(2~6)の音声の合成が優れていることが明らかになった。
関連論文リスト
- Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - Converting Anyone's Emotion: Towards Speaker-Independent Emotional Voice
Conversion [83.14445041096523]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、ある状態から別の状態へ音声の感情を変換することを目的としている。
パラレルデータを必要とせずに、誰の感情も変換できる話者非依存の感情音声変換フレームワークを提案する。
実験の結果,提案した話者非依存のフレームワークは,目に見える話者と目に見えない話者の双方に対して,競争的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-05-13T13:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。