論文の概要: Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion
- arxiv url: http://arxiv.org/abs/2312.17508v1
- Date: Fri, 29 Dec 2023 08:06:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 12:49:37.987547
- Title: Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion
- Title(参考訳): インスタンスレベルの感情音声変換のための注意型対話型ディスタングルネットワーク
- Authors: Yun Chen, Lingxiao Yang, Qi Chen, Jian-Huang Lai, Xiaohua Xie
- Abstract要約: 感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
- 参考スコア(独自算出の注目度): 81.1492897350032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional Voice Conversion aims to manipulate a speech according to a given
emotion while preserving non-emotion components. Existing approaches cannot
well express fine-grained emotional attributes. In this paper, we propose an
Attention-based Interactive diseNtangling Network (AINN) that leverages
instance-wise emotional knowledge for voice conversion. We introduce a
two-stage pipeline to effectively train our network: Stage I utilizes
inter-speech contrastive learning to model fine-grained emotion and
intra-speech disentanglement learning to better separate emotion and content.
In Stage II, we propose to regularize the conversion with a multi-view
consistency mechanism. This technique helps us transfer fine-grained emotion
and maintain speech content. Extensive experiments show that our AINN
outperforms state-of-the-arts in both objective and subjective metrics.
- Abstract(参考訳): 感情音声変換は、非感情成分を維持しながら、所定の感情に従って音声を操作することを目的としている。
既存のアプローチでは、きめ細かい感情的な特性を表現できない。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
ステージiでは,言語間コントラスト学習(inter-speech contrastive learning)を利用して,きめ細かな感情をモデル化し,感情とコンテンツを分離する。
ステージIIでは,多視点整合性機構による変換の正規化を提案する。
この技術は、きめ細かい感情を伝達し、音声コンテンツを維持するのに役立つ。
大規模な実験の結果、AINNは客観的指標と主観的指標の両方で最先端の成績を示している。
関連論文リスト
- Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised
Representations and Neural Vocoder-based Resynthesis [15.16865739526702]
本稿では,自己教師ネットワークを用いて発話の語彙的,話者的,感情的な内容を切り離す手法を提案する。
次に、HiFiGANボコーダを用いて、不整合表現をターゲット感情の音声信号に再合成する。
その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。
論文 参考訳(メタデータ) (2023-06-02T21:02:51Z) - Nonparallel Emotional Voice Conversion For Unseen Speaker-Emotion Pairs
Using Dual Domain Adversarial Network & Virtual Domain Pairing [9.354935229153787]
トレーニングやテスト期間中に中性データのみが存在する話者の感情を変換する問題に対処する。
実データに存在しない話者と感情のペアを仮想的に組み込んだ仮想ドメインペアリング(VDP)トレーニング戦略を提案する。
ヒンディー語感情データベースを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-02-21T09:06:52Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。