論文の概要: Decoupling Speaker-Independent Emotions for Voice Conversion Via
Source-Filter Networks
- arxiv url: http://arxiv.org/abs/2110.01164v1
- Date: Mon, 4 Oct 2021 03:14:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:05:20.313178
- Title: Decoupling Speaker-Independent Emotions for Voice Conversion Via
Source-Filter Networks
- Title(参考訳): 音源フィルタネットワークにおける話者非依存感情の分離
- Authors: Zhaojie Luo, Shoufeng Lin, Rui Liu, Jun Baba, Yuichiro Yoshikawa and
Ishiguro Hiroshi
- Abstract要約: 本研究では,話者に依存しない感情特徴の適切なフィルタリングを実現するために,ソースフィルタに基づく感情VCモデル(SFEVC)を提案する。
我々のSFEVCモデルはマルチチャネルエンコーダと感情分離エンコーダと1つのデコーダで構成されている。
- 参考スコア(独自算出の注目度): 14.55242023708204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional voice conversion (VC) aims to convert a neutral voice to an
emotional (e.g. happy) one while retaining the linguistic information and
speaker identity. We note that the decoupling of emotional features from other
speech information (such as speaker, content, etc.) is the key to achieving
remarkable performance. Some recent attempts about speech representation
decoupling on the neutral speech can not work well on the emotional speech, due
to the more complex acoustic properties involved in the latter. To address this
problem, here we propose a novel Source-Filter-based Emotional VC model (SFEVC)
to achieve proper filtering of speaker-independent emotion features from both
the timbre and pitch features. Our SFEVC model consists of multi-channel
encoders, emotion separate encoders, and one decoder. Note that all encoder
modules adopt a designed information bottlenecks auto-encoder. Additionally, to
further improve the conversion quality for various emotions, a novel two-stage
training strategy based on the 2D Valence-Arousal (VA) space was proposed.
Experimental results show that the proposed SFEVC along with a two-stage
training strategy outperforms all baselines and achieves the state-of-the-art
performance in speaker-independent emotional VC with nonparallel data.
- Abstract(参考訳): 感情音声変換(VC)は、言語情報と話者のアイデンティティを保持しながら、中立の声を感情的な(例えば幸福な)声に変換することを目的としている。
我々は、他の音声情報(話者、コンテンツなど)からの感情的特徴の分離が、目覚ましいパフォーマンスを達成するための鍵であることに注意する。
中性音声における音声表現の分離に関する最近の試みは、後者に含まれるより複雑な音響特性のため、感情的な音声ではうまく機能しない。
そこで本研究では,音色とピッチの特徴から,話者に依存しない感情特徴の適切なフィルタリングを実現するために,ソースフィルタに基づく感情VCモデル(SFEVC)を提案する。
我々のSFEVCモデルはマルチチャネルエンコーダと感情分離エンコーダと1つのデコーダで構成される。
すべてのエンコーダモジュールは、設計された情報ボトルネック自動エンコーダを採用する。
さらに、様々な感情の変換品質をさらに向上させるために、2次元ヴァレンス・オーラル(VA)空間に基づく新しい2段階トレーニング戦略を提案した。
実験結果から,SFEVCと2段階のトレーニング戦略は,非並列データを用いた話者非依存型感情VCにおいて,すべてのベースラインを上回り,最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Nonparallel Emotional Voice Conversion For Unseen Speaker-Emotion Pairs
Using Dual Domain Adversarial Network & Virtual Domain Pairing [9.354935229153787]
トレーニングやテスト期間中に中性データのみが存在する話者の感情を変換する問題に対処する。
実データに存在しない話者と感情のペアを仮想的に組み込んだ仮想ドメインペアリング(VDP)トレーニング戦略を提案する。
ヒンディー語感情データベースを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-02-21T09:06:52Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - VAW-GAN for Disentanglement and Recomposition of Emotional Elements in
Speech [91.92456020841438]
変分自己符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)による音声の感情要素のアンタングル化と再分解について検討する。
本稿では,2つのVAW-GANパイプライン,1つはスペクトル変換,もう1つは韻律変換を含む話者依存型ECVフレームワークを提案する。
提案手法の有効性を客観評価と主観評価の両方で検証した。
論文 参考訳(メタデータ) (2020-11-03T08:49:33Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Converting Anyone's Emotion: Towards Speaker-Independent Emotional Voice
Conversion [83.14445041096523]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、ある状態から別の状態へ音声の感情を変換することを目的としている。
パラレルデータを必要とせずに、誰の感情も変換できる話者非依存の感情音声変換フレームワークを提案する。
実験の結果,提案した話者非依存のフレームワークは,目に見える話者と目に見えない話者の双方に対して,競争的な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-05-13T13:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。