Fugu-MT 論文翻訳(概要): Maestro-EVC: Controllable Emotional Voice Conversion Guided by References and Explicit Prosody

論文の概要: Maestro-EVC: Controllable Emotional Voice Conversion Guided by References and Explicit Prosody

arxiv url: http://arxiv.org/abs/2508.06890v1
Date: Sat, 09 Aug 2025 08:46:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-12 21:23:28.600801
Title: Maestro-EVC: Controllable Emotional Voice Conversion Guided by References and Explicit Prosody
Title（参考訳）: Maestro-EVC:参照と明示的韻律による制御可能な感情音声変換
Authors: Jinsung Yoon, Wooyeol Jeong, Jio Gim, Young-Joo Suh,
Abstract要約: Maestro-EVCは、コンテンツ、話者アイデンティティ、感情の独立した制御を可能にするコントロール可能なECVフレームワークである。本研究では,時間的感情表現と韻律拡張を用いた明示的韻律モデリングを導入し,対象感情の時間的ダイナミクスを強く捉え,伝達する。
参考スコア（独自算出の注目度）: 11.3727931305307
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emotional voice conversion (EVC) aims to modify the emotional style of speech while preserving its linguistic content. In practical EVC, controllability, the ability to independently control speaker identity and emotional style using distinct references, is crucial. However, existing methods often struggle to fully disentangle these attributes and lack the ability to model fine-grained emotional expressions such as temporal dynamics. We propose Maestro-EVC, a controllable EVC framework that enables independent control of content, speaker identity, and emotion by effectively disentangling each attribute from separate references. We further introduce a temporal emotion representation and an explicit prosody modeling with prosody augmentation to robustly capture and transfer the temporal dynamics of the target emotion, even under prosody-mismatched conditions. Experimental results confirm that Maestro-EVC achieves high-quality, controllable, and emotionally expressive speech synthesis.
Abstract（参考訳）: 情緒的音声変換(EVC)は、その言語的内容を保持しながら、感情的な音声のスタイルを変更することを目的としている。実用的なECVでは、個別の参照を用いて話者のアイデンティティと感情スタイルを独立に制御する能力が重要である。しかし、既存の手法はこれらの属性を完全に切り離すのに苦労することが多く、時間力学のような微粒な感情表現をモデル化する能力に欠ける。本稿では,コンテンツ,話者識別,感情の独立制御を可能にする制御可能なECVフレームワークであるMaestro-EVCを提案する。さらに、韻律拡張による時間的感情表現と明示的韻律モデリングを導入し、韻律ミスマッチ条件下であっても、対象感情の時間的ダイナミクスをしっかりと捉え、伝達する。実験結果から,Maestro-EVCは高品質で制御可能で,感情的に表現可能な音声合成を実現することが確認された。

関連論文リスト

ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and Speech [6.849595332644105]
ClapFM-EVCは、自然言語のプロンプトや、調整可能な感情強度を持つ参照音声によって駆動される高品質な変換音声を生成することができる新しいフレームワークである。
論文参考訳（メタデータ） (2025-05-20T01:34:29Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
DurFlex-EVC: Duration-Flexible Emotional Voice Conversion Leveraging Discrete Representations without Text Alignment [34.19748360507656]
DurFlex-EVCは、テキストやアライメント情報を必要とせずに動作する、持続的フレキシブルなECVフレームワークである。本稿では,テキスト・テキスト・アライメントの不要さを解消し,コンテントを表す個別の単位に音声をアライメントすることで,文脈情報をモデル化するユニット・アライメント手法を提案する。また、音声の感情特性を正確に操作できるように、コンテンツと感情のスタイルを効果的に切り離すスタイルオートエンコーダを設計する。
論文参考訳（メタデータ） (2024-01-16T03:39:35Z)
Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文参考訳（メタデータ） (2024-01-12T16:42:10Z)
Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文参考訳（メタデータ） (2023-12-29T08:06:45Z)
Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。本稿では,感情の強さを明示的に表現し,制御することを目的とする。本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文参考訳（メタデータ） (2022-01-10T02:11:25Z)
Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2020-10-28T07:16:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。