論文の概要: Mismatch Aware Guidance for Robust Emotion Control in Auto-Regressive TTS Models
- arxiv url: http://arxiv.org/abs/2510.13293v1
- Date: Wed, 15 Oct 2025 08:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.574136
- Title: Mismatch Aware Guidance for Robust Emotion Control in Auto-Regressive TTS Models
- Title(参考訳): 自動回帰TSモデルにおけるロバスト感情制御のためのミスマッチ注意誘導
- Authors: Yizhou Peng, Yukun Ma, Chong Zhang, Yi-Wen Chao, Chongjia Ni, Bin Ma,
- Abstract要約: Free Guidance (CFG) は、迅速なアライメントを強化するための重要な技術である。
本稿では,検出ミスマッチの異なるレベルに適応的なCFG方式を提案する。
提案手法は,AR TTSモデルの感情表現性を向上することを示す。
- 参考スコア(独自算出の注目度): 17.057147378617422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Text-to-Speech (TTS) systems can achieve fine-grained control over emotional expression via natural language prompts, a significant challenge emerges when the desired emotion (style prompt) conflicts with the semantic content of the text. This mismatch often results in unnatural-sounding speech, undermining the goal of achieving fine-grained emotional control. Classifier-Free Guidance (CFG) is a key technique for enhancing prompt alignment; however, its application to auto-regressive (AR) TTS models remains underexplored, which can lead to degraded audio quality. This paper directly addresses the challenge of style-content mismatch in AR TTS models by proposing an adaptive CFG scheme that adjusts to different levels of the detected mismatch, as measured using large language models or natural language inference models. This solution is based on a comprehensive analysis of CFG's impact on emotional expressiveness in state-of-the-art AR TTS models. Our results demonstrate that the proposed adaptive CFG scheme improves the emotional expressiveness of the AR TTS model while maintaining audio quality and intelligibility.
- Abstract(参考訳): Text-to-Speech (TTS) システムは、自然言語のプロンプトを通じて感情表現のきめ細かい制御を実現することができるが、所望の感情(スタイルのプロンプト)がテキストの意味的内容と矛盾すると、大きな課題が生じる。
このミスマッチは、しばしば不自然な発声を招き、きめ細かい感情制御を達成するという目標を損なう。
分類自由誘導(CFG)は、迅速なアライメントを向上する鍵となる手法であるが、自動回帰(AR) TTS モデルへの適用は未検討であり、音質の劣化につながる可能性がある。
本稿では,大規模言語モデルや自然言語推論モデルを用いて,検出されたミスマッチのレベルに応じて適応的なCFGスキームを提案することで,AR TTSモデルにおけるスタイル・コンテンツ・ミスマッチの課題を直接解決する。
このソリューションは、最先端のAR TTSモデルにおけるCFGの感情表現性への影響の包括的分析に基づいている。
提案手法は,音質と知性を維持しつつ,AR TTSモデルの感情表現性を向上することを示す。
関連論文リスト
- CoCoEmo: Composable and Controllable Human-Like Emotional TTS via Activation Steering [25.10244503397448]
人間の言論における感情表現はニュアンス的で構成的であり、しばしば複数の矛盾する感情的な手がかりを含む。
ほとんどの表現力のあるテキスト音声システムは、単一の発話レベルの感情を強制し、感情の多様性を崩壊させ、混合あるいはテキスト感情のミスマッチした表現を抑制する。
本稿では,構成可能な混合感情合成と信頼性のあるテキスト感情ミスマッチ合成を可能にする定量的かつ制御可能なステアリングフレームワークとマルチレータ評価プロトコルを提案する。
論文 参考訳(メタデータ) (2026-02-03T11:45:00Z) - IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech [13.3878636941081]
IndexTTS2は、音声持続時間制御のための新しい、一般的な、そして自己回帰的なモデルフレンドリーな方法である。
感情表現と話者同一性の間の絡み合いを達成し、音色と感情の独立制御を可能にする。
単語誤り率、話者類似度、感情的忠実度の観点から、最先端のゼロショットTSモデルより優れている。
論文 参考訳(メタデータ) (2025-06-23T08:33:40Z) - SUTA-LM: Bridging Test-Time Adaptation and Language Model Rescoring for Robust ASR [58.31068047426522]
テスト時間適応(TTA)は、推論中にモデルを調整することで緩和することを目的としている。
最近の研究は、ビーム探索再構成や生成誤り訂正といった手法を用いて、TTAと外部言語モデルの組み合わせについて検討している。
本稿では,SUTAの簡易かつ効果的な拡張であるSUTA-LMを提案する。
18種類のASRデータセットの実験により、SUTA-LMは幅広い領域で堅牢な結果が得られることが示された。
論文 参考訳(メタデータ) (2025-06-10T02:50:20Z) - Towards Emotionally Consistent Text-Based Speech Editing: Introducing EmoCorrector and The ECD-TSE Dataset [52.95197015472105]
EmoCorrectorはテキストベースの音声編集のための新しいポスト補正方式である。
編集されたテキストの感情的特徴を検索し、一致する感情で音声サンプルを検索し、所望の感情に合わせて音声を合成する。
EmoCorrectorは、現在のTSEメソッドにおける感情の不整合に対処しながら、意図した感情の発現を著しく向上させる。
論文 参考訳(メタデータ) (2025-05-24T16:10:56Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - PROEMO: Prompt-Driven Text-to-Speech Synthesis Based on Emotion and Intensity Control [20.873353104077857]
本稿では,素早い感情制御を中心にしたアプローチを提案する。
提案アーキテクチャは,複数話者間での感情と強度制御を取り入れたアーキテクチャである。
我々は,大言語モデル(LLM)を用いて,言語コンテンツを保存しながら音声韻律を操作する。
論文 参考訳(メタデータ) (2025-01-10T12:10:30Z) - StyleSpeech: Parameter-efficient Fine Tuning for Pre-trained Controllable Text-to-Speech [13.713209707407712]
StyleSpeechは、合成音声の自然性と精度を高める新しいテキスト音声合成システムである。
既存のTS技術に基づいて、StyleSpeechには独自のStyle Decorator構造が組み込まれており、ディープラーニングモデルでスタイルと音素の特徴を同時に学習することができる。
LoRAは、事前訓練されたモデルにおけるスタイル機能の効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-08-27T00:37:07Z) - Phonetic Enhanced Language Modeling for Text-to-Speech Synthesis [33.909582975045545]
TTSモデルの性能向上のための音素拡張言語モデリング手法を提案する。
我々は,自己回帰言語モデルの訓練対象として,音声的にリッチな自己教師表現を活用している。
論文 参考訳(メタデータ) (2024-06-04T06:43:34Z) - UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts [64.02363948840333]
UMETTSは、複数のモーダルからの感情的手がかりを利用して、表現力が高く感情的に共鳴する音声を生成する新しいフレームワークである。
EP-Alignは対照的な学習を用いて、テキスト、オーディオ、視覚的モダリティをまたいだ感情的特徴を整合させ、マルチモーダル情報のコヒーレントな融合を保証する。
EMI-TTSは、アライメントされた感情埋め込みと最先端のTSモデルを統合し、意図した感情を正確に反映した音声を合成する。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - A Study on Altering the Latent Space of Pretrained Text to Speech Models
for Improved Expressiveness [0.0]
本稿では,VAE ベースの TTS モデルで作業する場合の課題を特定し,潜時音声の特徴を変化させるための画像と画像の異なる手法を評価する。
本研究は,RTSシステムに表現性制御を付加することの複雑さと今後の研究への道を開くことに関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2023-11-17T13:07:00Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。