論文の概要: EmoReg: Directional Latent Vector Modeling for Emotional Intensity Regularization in Diffusion-based Voice Conversion
- arxiv url: http://arxiv.org/abs/2412.20359v1
- Date: Sun, 29 Dec 2024 05:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:04:22.905504
- Title: EmoReg: Directional Latent Vector Modeling for Emotional Intensity Regularization in Diffusion-based Voice Conversion
- Title(参考訳): EmoReg: 拡散に基づく音声変換における感情インテンシティ正規化のための方向潜在ベクトルモデリング
- Authors: Ashishkumar Gudmalwar, Ishan D. Biyani, Nirmesh Shah, Pankaj Wasnik, Rajiv Ratn Shah,
- Abstract要約: Emotional Voice Conversion (EVC) は、音源の感情から特定の発話のターゲットへの離散的な感情状態を変換することを目的としている。
本研究では,対象感情の正確な音声を生成するために,拡散型ECVフレームワークにおける感情強度の正規化を提案する。
提案手法の有効性は、英語とヒンディー語に対する主観的および客観的評価の観点から、最先端(SOTA)ベースラインにまたがって示されている。
- 参考スコア(独自算出の注目度): 30.25632448893884
- License:
- Abstract: The Emotional Voice Conversion (EVC) aims to convert the discrete emotional state from the source emotion to the target for a given speech utterance while preserving linguistic content. In this paper, we propose regularizing emotion intensity in the diffusion-based EVC framework to generate precise speech of the target emotion. Traditional approaches control the intensity of an emotional state in the utterance via emotion class probabilities or intensity labels that often lead to inept style manipulations and degradations in quality. On the contrary, we aim to regulate emotion intensity using self-supervised learning-based feature representations and unsupervised directional latent vector modeling (DVM) in the emotional embedding space within a diffusion-based framework. These emotion embeddings can be modified based on the given target emotion intensity and the corresponding direction vector. Furthermore, the updated embeddings can be fused in the reverse diffusion process to generate the speech with the desired emotion and intensity. In summary, this paper aims to achieve high-quality emotional intensity regularization in the diffusion-based EVC framework, which is the first of its kind work. The effectiveness of the proposed method has been shown across state-of-the-art (SOTA) baselines in terms of subjective and objective evaluations for the English and Hindi languages \footnote{Demo samples are available at the following URL: \url{https://nirmesh-sony.github.io/EmoReg/}}.
- Abstract(参考訳): Emotional Voice Conversion (EVC) は、言語的内容を保持しながら、音源の感情から特定の発話のターゲットへの離散的な感情状態を変換することを目的としている。
本稿では,対象感情の正確な発話を生成するために,拡散型ECVフレームワークにおける感情強度の正規化を提案する。
伝統的なアプローチは、感情階級の確率や強度ラベルを通じて発話中の感情状態の強度を制御し、しばしば不適切なスタイルの操作や品質の劣化につながる。
これとは対照的に,拡散型フレームワーク内の感情埋め込み空間において,自己教師付き学習に基づく特徴表現と非教師なし指向性潜在ベクトルモデリング(DVM)を用いて感情の強度を調節することを目指している。
これらの感情埋め込みは、所定の目標感情強度と対応する方向ベクトルに基づいて修正することができる。
さらに、更新された埋め込みを逆拡散過程に融合させ、所望の感情と強度で音声を生成する。
要約して,本論文は,拡散型ECVフレームワークにおける高品質な感情強度正規化を実現することを目的としている。
提案手法の有効性は、英語およびヒンディー語に対する主観的および客観的評価の観点から、最先端(SOTA)ベースラインで示されている: \url{https://nirmesh-sony.github.io/EmoReg/}}。
関連論文リスト
- Learning Frame-Wise Emotion Intensity for Audio-Driven Talking-Head Generation [59.81482518924723]
そこで本研究では,発話頭生成のための微妙なシフトを捕捉し,生成する手法を提案する。
我々は,強度レベルを正確に制御し,様々な感情を生成できる話頭フレームワークを開発した。
提案手法の有効性を実験・解析により検証した。
論文 参考訳(メタデータ) (2024-09-29T01:02:01Z) - EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech [34.03787613163788]
EmoSphere-TTSは球面感情ベクトルを用いて表現的感情音声を合成し、合成音声の感情的スタイルと強度を制御する。
マルチアスペクト特性を反映して生成した音声の品質を向上させるための2つの条件付き対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T01:40:29Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - In-the-wild Speech Emotion Conversion Using Disentangled Self-Supervised
Representations and Neural Vocoder-based Resynthesis [15.16865739526702]
本稿では,自己教師ネットワークを用いて発話の語彙的,話者的,感情的な内容を切り離す手法を提案する。
次に、HiFiGANボコーダを用いて、不整合表現をターゲット感情の音声信号に再合成する。
その結果,提案手法は入力音声の感情内容に適度に適応し,対象感情に対して自然な音声を合成できることがわかった。
論文 参考訳(メタデータ) (2023-06-02T21:02:51Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。