論文の概要: Nonparallel Emotional Voice Conversion For Unseen Speaker-Emotion Pairs
Using Dual Domain Adversarial Network & Virtual Domain Pairing
- arxiv url: http://arxiv.org/abs/2302.10536v1
- Date: Tue, 21 Feb 2023 09:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 15:48:34.322295
- Title: Nonparallel Emotional Voice Conversion For Unseen Speaker-Emotion Pairs
Using Dual Domain Adversarial Network & Virtual Domain Pairing
- Title(参考訳): dual domain adversarial network と virtual domain pairing を用いた非知覚話者-感情ペアの非並列感情音声変換
- Authors: Nirmesh Shah, Mayank Kumar Singh, Naoya Takahashi, Naoyuki Onoe
- Abstract要約: トレーニングやテスト期間中に中性データのみが存在する話者の感情を変換する問題に対処する。
実データに存在しない話者と感情のペアを仮想的に組み込んだ仮想ドメインペアリング(VDP)トレーニング戦略を提案する。
ヒンディー語感情データベースを用いて提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 9.354935229153787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Primary goal of an emotional voice conversion (EVC) system is to convert the
emotion of a given speech signal from one style to another style without
modifying the linguistic content of the signal. Most of the state-of-the-art
approaches convert emotions for seen speaker-emotion combinations only. In this
paper, we tackle the problem of converting the emotion of speakers whose only
neutral data are present during the time of training and testing (i.e., unseen
speaker-emotion combinations). To this end, we extend a recently proposed
StartGANv2-VC architecture by utilizing dual encoders for learning the speaker
and emotion style embeddings separately along with dual domain source
classifiers. For achieving the conversion to unseen speaker-emotion
combinations, we propose a Virtual Domain Pairing (VDP) training strategy,
which virtually incorporates the speaker-emotion pairs that are not present in
the real data without compromising the min-max game of a discriminator and
generator in adversarial training. We evaluate the proposed method using a
Hindi emotional database.
- Abstract(参考訳): 感情音声変換システム(EVC)の第一の目的は、与えられた音声信号の感情を、その信号の言語内容を変更することなく、あるスタイルから別のスタイルに変換することである。
最先端のアプローチのほとんどは、見ている話者と感情の組み合わせに対する感情を変換する。
本稿では、トレーニングとテスト中に中性データのみが存在する話者の感情を変換する問題に対処する(即ち、未知の話者と感情の組み合わせ)。
そこで我々は最近提案したStartGANv2-VCアーキテクチャを拡張し、話者と感情スタイルの埋め込みと2つのドメインソース分類器を別々に学習する。
実データに存在しない話者と感情の組み合わせを仮想ドメインペアリング(VDP)学習戦略として,識別器とジェネレータのMin-maxゲームに妥協することなく,仮想ドメインペアリング(VDP)学習戦略を提案する。
提案手法はヒンディー語感情データベースを用いて評価する。
関連論文リスト
- Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Decoupling Speaker-Independent Emotions for Voice Conversion Via
Source-Filter Networks [14.55242023708204]
本研究では,話者に依存しない感情特徴の適切なフィルタリングを実現するために,ソースフィルタに基づく感情VCモデル(SFEVC)を提案する。
我々のSFEVCモデルはマルチチャネルエンコーダと感情分離エンコーダと1つのデコーダで構成されている。
論文 参考訳(メタデータ) (2021-10-04T03:14:48Z) - Multimodal Emotion Recognition with High-level Speech and Text Features [8.141157362639182]
本稿では,wav2vec 2.0音声特徴量に対する感情認識を実現するために,新しいクロス表現音声モデルを提案する。
また、Transformerベースのモデルを用いて抽出したテキスト特徴から感情を認識するために、CNNベースのモデルをトレーニングする。
本手法は,4クラス分類問題においてIEMOCAPデータセットを用いて評価する。
論文 参考訳(メタデータ) (2021-09-29T07:08:40Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - VAW-GAN for Disentanglement and Recomposition of Emotional Elements in
Speech [91.92456020841438]
変分自己符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)による音声の感情要素のアンタングル化と再分解について検討する。
本稿では,2つのVAW-GANパイプライン,1つはスペクトル変換,もう1つは韻律変換を含む話者依存型ECVフレームワークを提案する。
提案手法の有効性を客観評価と主観評価の両方で検証した。
論文 参考訳(メタデータ) (2020-11-03T08:49:33Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - Converting Anyone's Emotion: Towards Speaker-Independent Emotional Voice
Conversion [83.14445041096523]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、ある状態から別の状態へ音声の感情を変換することを目的としている。
パラレルデータを必要とせずに、誰の感情も変換できる話者非依存の感情音声変換フレームワークを提案する。
実験の結果,提案した話者非依存のフレームワークは,目に見える話者と目に見えない話者の双方に対して,競争的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-05-13T13:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。