論文の概要: IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
- arxiv url: http://arxiv.org/abs/2506.21619v1
- Date: Mon, 23 Jun 2025 08:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.931468
- Title: IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
- Title(参考訳): IndexTTS2:感情表現と時間制御によるゼロショットテキストから音声へのブレークスルー
- Authors: Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu,
- Abstract要約: IndexTTS2は、音声持続時間制御のための、新しくて自己回帰的なモデルフレンドリーな方法である。
感情表現と話者同一性の間の絡み合いを達成し、音色と感情の独立的な制御を可能にする。
既存のゼロショットTSモデルよりも、単語エラー率、話者類似度、感情的忠実度が優れている。
- 参考スコア(独自算出の注目度): 11.513307803875474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale text-to-speech (TTS) models are typically categorized into autoregressive and non-autoregressive systems. Although autoregressive systems exhibit certain advantages in speech naturalness, their token-by-token generation mechanism makes it difficult to precisely control the duration of synthesized speech. This is a key limitation in applications such as video dubbing that require strict audio-visual synchronization. This paper introduces IndexTTS2, which proposes a novel and autoregressive-model-friendly method for speech duration control. The method supports two generation modes: one allows explicit specification of the number of generated tokens for precise duration control; the other does not require manual input and lets the model freely generate speech while preserving prosodic characteristics from the input prompt. Furthermore, IndexTTS2 achieves disentanglement between emotional expression and speaker identity, enabling independent control of timbre and emotion. In the zero-shot setting, the model can perfectly reproduce the emotional characteristics of the input prompt. Users may also provide a separate emotion prompt, even from a different speaker, allowing the model to reconstruct the target timbre while conveying the desired emotion. To enhance clarity during strong emotional expressions, we incorporate GPT latent representations to improve speech stability. Meanwhile, to lower the barrier for emotion control, we design a soft instruction mechanism based on textual descriptions by fine-tuning Qwen3. This enables effective guidance of speech generation with desired emotional tendencies using natural language input. Experimental results demonstrate that IndexTTS2 outperforms existing state-of-the-art zero-shot TTS models in word error rate, speaker similarity, and emotional fidelity.
- Abstract(参考訳): 大規模テキスト音声合成(TTS)モデルは通常、自己回帰システムと非自己回帰システムに分類される。
自己回帰システムは音声の自然性に一定の利点があるが、トークン・バイ・トケン生成機構により合成音声の持続時間を正確に制御することは困難である。
これは、厳密な音声と視覚の同期を必要とするビデオダビングのようなアプリケーションにおいて重要な制限である。
本稿では,音声持続時間制御のための新鮮で自己回帰的モデルフレンドリーな手法であるIndexTTS2を提案する。
この方法は2つの生成モードをサポートする: 1つは正確な期間制御のために生成されたトークンの数を明示的に指定することができ、もう1つは手動入力を必要とせず、もう1つは入力プロンプトから韻律特性を保持しながら自由に音声を生成する。
さらに、IndexTTS2は感情表現と話者同一性の間の絡み合いを達成し、音色と感情の独立制御を可能にする。
ゼロショット設定では、入力プロンプトの感情特性を完全に再現することができる。
また、ユーザーは異なる話者からでも別の感情のプロンプトを提供し、モデルが所望の感情を伝達しながらターゲットの音色を再構築することができる。
強い感情表現における明瞭さを高めるために,GPT潜在表現を取り入れ,音声の安定性を向上させる。
一方,感情制御の障壁を低くするために,微調整Qwen3によるテキスト記述に基づくソフトインストラクション機構を設計する。
これにより、自然言語入力を用いて、所望の感情傾向を持つ音声生成の効果的な指導が可能となる。
実験の結果,IndexTTS2は単語誤り率,話者類似度,感情的忠実度において,既存のゼロショットTSモデルよりも優れていた。
関連論文リスト
- MPE-TTS: Customized Emotion Zero-Shot Text-To-Speech Using Multi-Modal Prompt [6.554565427680876]
マルチモーダルプロンプトに基づくZS-TTSシステムを提案する。
このシステムは、音声を内容、音色、感情、韻律に切り離し、感情のプロンプトをテキスト、画像、音声として提供する。
論文 参考訳(メタデータ) (2025-05-24T01:26:02Z) - EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting [48.56693150755667]
EmoVoiceは、大きな言語モデル(LLM)を利用して、きめ細かい自然言語の感情制御を可能にする、感情制御可能な新しいTSモデルである。
EmoVoice-DBは、表現力のある音声と自然言語記述によるきめ細かい感情ラベルを特徴とする、高品質な40時間感情データセットである。
論文 参考訳(メタデータ) (2025-04-17T11:50:04Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - PROEMO: Prompt-Driven Text-to-Speech Synthesis Based on Emotion and Intensity Control [20.873353104077857]
本稿では,素早い感情制御を中心にしたアプローチを提案する。
提案アーキテクチャは,複数話者間での感情と強度制御を取り入れたアーキテクチャである。
我々は,大言語モデル(LLM)を用いて,言語コンテンツを保存しながら音声韻律を操作する。
論文 参考訳(メタデータ) (2025-01-10T12:10:30Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Semi-supervised learning for continuous emotional intensity controllable
speech synthesis with disentangled representations [16.524515747017787]
半教師付き学習を用いて感情の連続的な強度を制御する新しい手法を提案する。
実験の結果,提案手法は制御性と自然性に優れていた。
論文 参考訳(メタデータ) (2022-11-11T12:28:07Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Emotional Prosody Control for Speech Generation [7.66200737962746]
本研究では,ユーザが連続的かつ有意義な感情空間から生成した音声の感情を選択することができるテキスト・トゥ・スピーチ(TTS)システムを提案する。
提案システムでは,任意の話者のスタイルでテキストから音声を生成することができる。
論文 参考訳(メタデータ) (2021-11-07T08:52:04Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。