論文の概要: Mismatch Aware Guidance for Robust Emotion Control in Auto-Regressive TTS Models
- arxiv url: http://arxiv.org/abs/2510.13293v1
- Date: Wed, 15 Oct 2025 08:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.574136
- Title: Mismatch Aware Guidance for Robust Emotion Control in Auto-Regressive TTS Models
- Title(参考訳): 自動回帰TSモデルにおけるロバスト感情制御のためのミスマッチ注意誘導
- Authors: Yizhou Peng, Yukun Ma, Chong Zhang, Yi-Wen Chao, Chongjia Ni, Bin Ma,
- Abstract要約: Free Guidance (CFG) は、迅速なアライメントを強化するための重要な技術である。
本稿では,検出ミスマッチの異なるレベルに適応的なCFG方式を提案する。
提案手法は,AR TTSモデルの感情表現性を向上することを示す。
- 参考スコア(独自算出の注目度): 17.057147378617422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Text-to-Speech (TTS) systems can achieve fine-grained control over emotional expression via natural language prompts, a significant challenge emerges when the desired emotion (style prompt) conflicts with the semantic content of the text. This mismatch often results in unnatural-sounding speech, undermining the goal of achieving fine-grained emotional control. Classifier-Free Guidance (CFG) is a key technique for enhancing prompt alignment; however, its application to auto-regressive (AR) TTS models remains underexplored, which can lead to degraded audio quality. This paper directly addresses the challenge of style-content mismatch in AR TTS models by proposing an adaptive CFG scheme that adjusts to different levels of the detected mismatch, as measured using large language models or natural language inference models. This solution is based on a comprehensive analysis of CFG's impact on emotional expressiveness in state-of-the-art AR TTS models. Our results demonstrate that the proposed adaptive CFG scheme improves the emotional expressiveness of the AR TTS model while maintaining audio quality and intelligibility.
- Abstract(参考訳): Text-to-Speech (TTS) システムは、自然言語のプロンプトを通じて感情表現のきめ細かい制御を実現することができるが、所望の感情(スタイルのプロンプト)がテキストの意味的内容と矛盾すると、大きな課題が生じる。
このミスマッチは、しばしば不自然な発声を招き、きめ細かい感情制御を達成するという目標を損なう。
分類自由誘導(CFG)は、迅速なアライメントを向上する鍵となる手法であるが、自動回帰(AR) TTS モデルへの適用は未検討であり、音質の劣化につながる可能性がある。
本稿では,大規模言語モデルや自然言語推論モデルを用いて,検出されたミスマッチのレベルに応じて適応的なCFGスキームを提案することで,AR TTSモデルにおけるスタイル・コンテンツ・ミスマッチの課題を直接解決する。
このソリューションは、最先端のAR TTSモデルにおけるCFGの感情表現性への影響の包括的分析に基づいている。
提案手法は,音質と知性を維持しつつ,AR TTSモデルの感情表現性を向上することを示す。
関連論文リスト
- IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech [13.3878636941081]
IndexTTS2は、音声持続時間制御のための新しい、一般的な、そして自己回帰的なモデルフレンドリーな方法である。
感情表現と話者同一性の間の絡み合いを達成し、音色と感情の独立制御を可能にする。
単語誤り率、話者類似度、感情的忠実度の観点から、最先端のゼロショットTSモデルより優れている。
論文 参考訳(メタデータ) (2025-06-23T08:33:40Z) - Towards Emotionally Consistent Text-Based Speech Editing: Introducing EmoCorrector and The ECD-TSE Dataset [52.95197015472105]
EmoCorrectorはテキストベースの音声編集のための新しいポスト補正方式である。
編集されたテキストの感情的特徴を検索し、一致する感情で音声サンプルを検索し、所望の感情に合わせて音声を合成する。
EmoCorrectorは、現在のTSEメソッドにおける感情の不整合に対処しながら、意図した感情の発現を著しく向上させる。
論文 参考訳(メタデータ) (2025-05-24T16:10:56Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - StyleSpeech: Parameter-efficient Fine Tuning for Pre-trained Controllable Text-to-Speech [13.713209707407712]
StyleSpeechは、合成音声の自然性と精度を高める新しいテキスト音声合成システムである。
既存のTS技術に基づいて、StyleSpeechには独自のStyle Decorator構造が組み込まれており、ディープラーニングモデルでスタイルと音素の特徴を同時に学習することができる。
LoRAは、事前訓練されたモデルにおけるスタイル機能の効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-08-27T00:37:07Z) - Phonetic Enhanced Language Modeling for Text-to-Speech Synthesis [33.909582975045545]
TTSモデルの性能向上のための音素拡張言語モデリング手法を提案する。
我々は,自己回帰言語モデルの訓練対象として,音声的にリッチな自己教師表現を活用している。
論文 参考訳(メタデータ) (2024-06-04T06:43:34Z) - UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - A Study on Altering the Latent Space of Pretrained Text to Speech Models
for Improved Expressiveness [0.0]
本稿では,VAE ベースの TTS モデルで作業する場合の課題を特定し,潜時音声の特徴を変化させるための画像と画像の異なる手法を評価する。
本研究は,RTSシステムに表現性制御を付加することの複雑さと今後の研究への道を開くことに関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2023-11-17T13:07:00Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。