論文の概要: ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and Speech
- arxiv url: http://arxiv.org/abs/2505.13805v1
- Date: Tue, 20 May 2025 01:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.585557
- Title: ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and Speech
- Title(参考訳): ClapFM-EVC:自然言語と音声の二重制御による高忠実で柔軟な感情音声変換
- Authors: Yu Pan, Yanni Hu, Yuguang Yang, Jixun Yao, Jianhao Ye, Hongbin Zhou, Lei Ma, Jianjun Zhao,
- Abstract要約: ClapFM-EVCは、自然言語のプロンプトや、調整可能な感情強度を持つ参照音声によって駆動される高品質な変換音声を生成することができる新しいフレームワークである。
- 参考スコア(独自算出の注目度): 6.849595332644105
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite great advances, achieving high-fidelity emotional voice conversion (EVC) with flexible and interpretable control remains challenging. This paper introduces ClapFM-EVC, a novel EVC framework capable of generating high-quality converted speech driven by natural language prompts or reference speech with adjustable emotion intensity. We first propose EVC-CLAP, an emotional contrastive language-audio pre-training model, guided by natural language prompts and categorical labels, to extract and align fine-grained emotional elements across speech and text modalities. Then, a FuEncoder with an adaptive intensity gate is presented to seamless fuse emotional features with Phonetic PosteriorGrams from a pre-trained ASR model. To further improve emotion expressiveness and speech naturalness, we propose a flow matching model conditioned on these captured features to reconstruct Mel-spectrogram of source speech. Subjective and objective evaluations validate the effectiveness of ClapFM-EVC.
- Abstract(参考訳): 大きな進歩にもかかわらず、柔軟かつ解釈可能な制御で高忠実度感情音声変換(EVC)を達成することは依然として困難である。
本稿では,自然言語のプロンプトや参照音声によって駆動される高品質な変換音声を生成することができる新しいECVフレームワークであるClapFM-EVCを紹介する。
まず、自然言語のプロンプトと分類ラベルで導かれる感情的コントラスト言語-オーディオ事前学習モデルであるECV-CLAPを提案し、音声とテキストのモーダル性にまたがる、きめ細かな感情的要素を抽出・調整する。
そして、適応強度ゲートを有するFuEncoderを、事前学習されたASRモデルから音声後グラムとシームレスに融合する感情特徴を示す。
感情表現性と音声の自然性をさらに向上するために,これらの特徴に則ったフローマッチングモデルを提案し,音源音声のメルスペクトルを再構成する。
ClapFM-EVCの有効性を主観的および客観的評価により検証した。
関連論文リスト
- EmoReg: Directional Latent Vector Modeling for Emotional Intensity Regularization in Diffusion-based Voice Conversion [30.25632448893884]
Emotional Voice Conversion (EVC) は、音源の感情から特定の発話のターゲットへの離散的な感情状態を変換することを目的としている。
本研究では,対象感情の正確な音声を生成するために,拡散型ECVフレームワークにおける感情強度の正規化を提案する。
提案手法の有効性は、英語とヒンディー語に対する主観的および客観的評価の観点から、最先端(SOTA)ベースラインにまたがって示されている。
論文 参考訳(メタデータ) (2024-12-29T05:30:06Z) - EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions [152.41217651729738]
EMOVA (EMotionally Omni-present Voice Assistant) を提案する。
セマンティック・アコースティック・ディコンタングルド・音声トークンーザでは、オムニモーダルアライメントが視覚言語や音声能力をさらに向上させることに驚く。
EMOVAは、視覚言語と音声のベンチマークの両方で最先端のパフォーマンスを初めて達成した。
論文 参考訳(メタデータ) (2024-09-26T16:44:02Z) - DurFlex-EVC: Duration-Flexible Emotional Voice Conversion Leveraging Discrete Representations without Text Alignment [34.19748360507656]
DurFlex-EVCは、テキストやアライメント情報を必要とせずに動作する、持続的フレキシブルなECVフレームワークである。
本稿では,テキスト・テキスト・アライメントの不要さを解消し,コンテントを表す個別の単位に音声をアライメントすることで,文脈情報をモデル化するユニット・アライメント手法を提案する。
また、音声の感情特性を正確に操作できるように、コンテンツと感情のスタイルを効果的に切り離すスタイルオートエンコーダを設計する。
論文 参考訳(メタデータ) (2024-01-16T03:39:35Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。