論文の概要: Maestro-EVC: Controllable Emotional Voice Conversion Guided by References and Explicit Prosody
- arxiv url: http://arxiv.org/abs/2508.06890v1
- Date: Sat, 09 Aug 2025 08:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.600801
- Title: Maestro-EVC: Controllable Emotional Voice Conversion Guided by References and Explicit Prosody
- Title(参考訳): Maestro-EVC:参照と明示的韻律による制御可能な感情音声変換
- Authors: Jinsung Yoon, Wooyeol Jeong, Jio Gim, Young-Joo Suh,
- Abstract要約: Maestro-EVCは、コンテンツ、話者アイデンティティ、感情の独立した制御を可能にするコントロール可能なECVフレームワークである。
本研究では,時間的感情表現と韻律拡張を用いた明示的韻律モデリングを導入し,対象感情の時間的ダイナミクスを強く捉え,伝達する。
- 参考スコア(独自算出の注目度): 11.3727931305307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional voice conversion (EVC) aims to modify the emotional style of speech while preserving its linguistic content. In practical EVC, controllability, the ability to independently control speaker identity and emotional style using distinct references, is crucial. However, existing methods often struggle to fully disentangle these attributes and lack the ability to model fine-grained emotional expressions such as temporal dynamics. We propose Maestro-EVC, a controllable EVC framework that enables independent control of content, speaker identity, and emotion by effectively disentangling each attribute from separate references. We further introduce a temporal emotion representation and an explicit prosody modeling with prosody augmentation to robustly capture and transfer the temporal dynamics of the target emotion, even under prosody-mismatched conditions. Experimental results confirm that Maestro-EVC achieves high-quality, controllable, and emotionally expressive speech synthesis.
- Abstract(参考訳): 情緒的音声変換(EVC)は、その言語的内容を保持しながら、感情的な音声のスタイルを変更することを目的としている。
実用的なECVでは、個別の参照を用いて話者のアイデンティティと感情スタイルを独立に制御する能力が重要である。
しかし、既存の手法はこれらの属性を完全に切り離すのに苦労することが多く、時間力学のような微粒な感情表現をモデル化する能力に欠ける。
本稿では,コンテンツ,話者識別,感情の独立制御を可能にする制御可能なECVフレームワークであるMaestro-EVCを提案する。
さらに、韻律拡張による時間的感情表現と明示的韻律モデリングを導入し、韻律ミスマッチ条件下であっても、対象感情の時間的ダイナミクスをしっかりと捉え、伝達する。
実験結果から,Maestro-EVCは高品質で制御可能で,感情的に表現可能な音声合成を実現することが確認された。
関連論文リスト
- EmoShift: Lightweight Activation Steering for Enhanced Emotion-Aware Speech Synthesis [36.831497786147864]
EmoSteerレイヤを組み込んだ軽量なアクティベーションステアリングフレームワークであるEmoShiftを提案する。
EmoShiftは出力埋め込み空間内の各ターゲット感情に対するステアリングベクトルを学習し、その潜在オフセットをキャプチャし、安定した適切な表現を維持する。
完全な微調整の1/30未満のトレーニング可能なパラメータは10Mに過ぎず、EmoShiftはゼロショットと完全に微調整されたベースラインを客観的および主観的な評価で上回っている。
論文 参考訳(メタデータ) (2026-01-30T11:50:23Z) - A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction [50.05919688888947]
本稿では,感情的インテリジェンスのための統一言語モデルを提案する。
IEATは、ユーザーの感情状態とその根本原因をモデルの内部推論プロセスに組み込んでおり、明示的な監督として扱われるのではなく、感情を意識した推論を内部化することができる。
HumDial(Human-like Spoken Dialogue Systems Challenge)Emotional Intelligenceベンチマークの実験は、提案手法が感情軌道モデリング、感情的推論、共感的応答生成にまたがるトップランクのパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-08T14:07:30Z) - ClapFM-EVC: High-Fidelity and Flexible Emotional Voice Conversion with Dual Control from Natural Language and Speech [6.849595332644105]
ClapFM-EVCは、自然言語のプロンプトや、調整可能な感情強度を持つ参照音声によって駆動される高品質な変換音声を生成することができる新しいフレームワークである。
論文 参考訳(メタデータ) (2025-05-20T01:34:29Z) - UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [61.989360995528905]
制御可能な感情的TTSのための離散的感情と次元的感情を統一する普遍的なフレームワークであるUDDETTSを提案する。
このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。
実験の結果, UDDETTSは3次元の線形感情制御を実現し, エンドツーエンドの感情音声合成能力に優れていた。
論文 参考訳(メタデータ) (2025-05-15T12:57:19Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - From Rational Answers to Emotional Resonance: The Role of Controllable Emotion Generation in Language Models [16.350658746140788]
大規模言語モデル(LLM)は、一貫性があり、制御可能で、文脈的に適切な方法で感情を表現するのに苦労する。
感情ベクトル(EV)に基づく制御可能な感情生成フレームワークを提案する。
本手法は、追加のトレーニングやアーキテクチャの変更なしに、感情のトーンを微調整し、連続的に調整することができる。
論文 参考訳(メタデータ) (2025-02-06T13:38:57Z) - DurFlex-EVC: Duration-Flexible Emotional Voice Conversion Leveraging Discrete Representations without Text Alignment [34.19748360507656]
DurFlex-EVCは、テキストやアライメント情報を必要とせずに動作する、持続的フレキシブルなECVフレームワークである。
本稿では,テキスト・テキスト・アライメントの不要さを解消し,コンテントを表す個別の単位に音声をアライメントすることで,文脈情報をモデル化するユニット・アライメント手法を提案する。
また、音声の感情特性を正確に操作できるように、コンテンツと感情のスタイルを効果的に切り離すスタイルオートエンコーダを設計する。
論文 参考訳(メタデータ) (2024-01-16T03:39:35Z) - Enhancing Emotional Generation Capability of Large Language Models via Emotional Chain-of-Thought [50.13429055093534]
大規模言語モデル(LLM)は様々な感情認識タスクにおいて顕著な性能を示した。
本研究では,感情生成タスクにおけるLLMの性能を高めるための感情連鎖(ECoT)を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:42:10Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Seen and Unseen emotional style transfer for voice conversion with a new
emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。
可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。
提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-28T07:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。