論文の概要: Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2
- arxiv url: http://arxiv.org/abs/2603.11683v1
- Date: Thu, 12 Mar 2026 08:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.974242
- Title: Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2
- Title(参考訳): テキスト・音声の因果韻律治療:FastSpeechにおける時間・ピッチ・エネルギーの教育2
- Authors: Suvendu Sekhar Mohanty,
- Abstract要約: 本稿では,音声合成のための因果韻律調律フレームワークを提案する。
我々のアプローチは、明示的な感情条件付けでFastSpeech2アーキテクチャを拡張します。
我々は、話者間で感情を伝達する際に、より優れた知性(低WER)と話者の一貫性を観察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel causal prosody mediation framework for expressive text-to-speech (TTS) synthesis. Our approach augments the FastSpeech2 architecture with explicit emotion conditioning and introduces counterfactual training objectives to disentangle emotional prosody from linguistic content. By formulating a structural causal model of how text (content), emotion, and speaker jointly influence prosody (duration, pitch, energy) and ultimately the speech waveform, we derive two complementary loss terms: an Indirect Path Constraint (IPC) to enforce that emotion affects speech only through prosody, and a Counterfactual Prosody Constraint (CPC) to encourage distinct prosody patterns for different emotions. The resulting model is trained on multi-speaker emotional corpora (LibriTTS, EmoV-DB, VCTK) with a combined objective that includes standard spectrogram reconstruction and variance prediction losses alongside our causal losses. In evaluations on expressive speech synthesis, our method achieves significantly improved prosody manipulation and emotion rendering, with higher mean opinion scores (MOS) and emotion accuracy than baseline FastSpeech2 variants. We also observe better intelligibility (low WER) and speaker consistency when transferring emotions across speakers. Extensive ablations confirm that the causal objectives successfully separate prosody attribution, yielding an interpretable model that allows controlled counterfactual prosody editing (e.g. "same utterance, different emotion") without compromising naturalness. We discuss the implications for identifiability in prosody modeling and outline limitations such as the assumption that emotion effects are fully captured by pitch, duration, and energy. Our work demonstrates how integrating causal learning principles into TTS can improve controllability and expressiveness in generated speech.
- Abstract(参考訳): 本稿では,TTS合成のための新しい因果韻律調律フレームワークを提案する。
本稿では,FastSpeech2アーキテクチャを明示的な感情条件付きで拡張し,言語コンテンツから感情の韻律を遠ざけるための対実的訓練手法を提案する。
テキスト(コンテンツ)、感情、話者がプロソディ(デュレーション、ピッチ、エナジー)と最終的に音声波形にどのように影響するかという構造的因果モデルを定式化することにより、感情がプロソディのみを通してのみ音声に影響を及ぼすような間接的経路制約(IPC)と、異なる感情に対する異なるプロソディパターンを促進するための対人的韻律制約(CPC)の2つの相補的損失項を導出する。
その結果,マルチ話者感情コーパス (LibriTTS, EmoV-DB, VCTK) を用いて, 標準スペクトログラム再構成と偏差予測損失を因果的損失とともに併用した学習を行った。
表現型音声合成の評価において,提案手法は,ベースラインであるFastSpeech2よりも平均意見スコア(MOS)が高く,感情の精度が向上した。
また、話者間で感情を伝達する際に、より優れた知性(低WER)と話者の一貫性を観察する。
広範囲にわたる説明は、因果的目的がプロソディの属性を分離することに成功し、自然性を損なうことなく、制御された反事実的プロソディ編集(例えば「サメの発声、異なる感情」)を可能にする解釈可能なモデルが得られることを確認している。
本稿では、韻律モデルにおける識別可能性の重要性と、感情効果がピッチ、持続時間、エネルギーによって完全に捉えられるという仮定のような制約の概要について論じる。
我々の研究は、因果学習の原則をTSに組み込むことが、生成した音声の制御性と表現性をいかに改善するかを示す。
関連論文リスト
- IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech [13.3878636941081]
IndexTTS2は、音声持続時間制御のための新しい、一般的な、そして自己回帰的なモデルフレンドリーな方法である。
感情表現と話者同一性の間の絡み合いを達成し、音色と感情の独立制御を可能にする。
単語誤り率、話者類似度、感情的忠実度の観点から、最先端のゼロショットTSモデルより優れている。
論文 参考訳(メタデータ) (2025-06-23T08:33:40Z) - UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - EmoSpeech: Guiding FastSpeech2 Towards Emotional Text to Speech [0.0]
最先端の音声モデルは、人間の声にできるだけ近づこうとしている。
感情をモデル化することは、Text-To-Speech (TTS) 研究の不可欠な部分である。
EmoSpeechは、生成された音声におけるMOSスコアと感情認識の精度に関する既存のモデルを上回る。
論文 参考訳(メタデータ) (2023-06-28T19:34:16Z) - Learning Emotional Representations from Imbalanced Speech Data for
Speech Emotion Recognition and Emotional Text-to-Speech [1.4986031916712106]
音声感情表現は、音声感情認識(SER)および感情テキスト音声(TTS)タスクにおいて重要な役割を果たす。
モデルは大多数の中立層に過度に適合し、堅牢で効果的な感情表現を生成できない。
我々は、モデルのトレーニングに拡張アプローチを使用し、不均衡なデータセットから効果的で一般化可能な感情表現を抽出できるようにする。
論文 参考訳(メタデータ) (2023-06-09T07:04:56Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。