論文の概要: IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
- arxiv url: http://arxiv.org/abs/2506.21619v2
- Date: Wed, 03 Sep 2025 10:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:02.994683
- Title: IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
- Title(参考訳): IndexTTS2:感情表現と時間制御によるゼロショットテキストから音声へのブレークスルー
- Authors: Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu,
- Abstract要約: IndexTTS2は、音声持続時間制御のための新しい、一般的な、そして自己回帰的なモデルフレンドリーな方法である。
感情表現と話者同一性の間の絡み合いを達成し、音色と感情の独立制御を可能にする。
単語誤り率、話者類似度、感情的忠実度の観点から、最先端のゼロショットTSモデルより優れている。
- 参考スコア(独自算出の注目度): 13.3878636941081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing autoregressive large-scale text-to-speech (TTS) models have advantages in speech naturalness, but their token-by-token generation mechanism makes it difficult to precisely control the duration of synthesized speech. This becomes a significant limitation in applications requiring strict audio-visual synchronization, such as video dubbing. This paper introduces IndexTTS2, which proposes a novel, general, and autoregressive model-friendly method for speech duration control. The method supports two generation modes: one explicitly specifies the number of generated tokens to precisely control speech duration; the other freely generates speech in an autoregressive manner without specifying the number of tokens, while faithfully reproducing the prosodic features of the input prompt. Furthermore, IndexTTS2 achieves disentanglement between emotional expression and speaker identity, enabling independent control over timbre and emotion. In the zero-shot setting, the model can accurately reconstruct the target timbre (from the timbre prompt) while perfectly reproducing the specified emotional tone (from the style prompt). To enhance speech clarity in highly emotional expressions, we incorporate GPT latent representations and design a novel three-stage training paradigm to improve the stability of the generated speech. Additionally, to lower the barrier for emotional control, we designed a soft instruction mechanism based on text descriptions by fine-tuning Qwen3, effectively guiding the generation of speech with the desired emotional orientation. Finally, experimental results on multiple datasets show that IndexTTS2 outperforms state-of-the-art zero-shot TTS models in terms of word error rate, speaker similarity, and emotional fidelity. Audio samples are available at: https://index-tts.github.io/index-tts2.github.io/
- Abstract(参考訳): 既存の自己回帰型大規模音声合成(TTS)モデルは、音声の自然性に利点があるが、トークン・バイ・トケン生成機構により合成音声の持続時間を正確に制御することは困難である。
これは、ビデオダビングのような厳格なオーディオと視覚の同期を必要とするアプリケーションにおいて、重大な制限となる。
本稿では,音声持続時間制御のための新しい,汎用的,自己回帰的モデルフレンドリーな手法であるIndexTTS2を提案する。
入力プロンプトの韻律的特徴を忠実に再現しつつ、トークンの数を特定することなく、自動回帰的に音声を自由に生成する。
さらに、IndexTTS2は感情表現と話者同一性の間の絡み合いを達成し、音色と感情の独立制御を可能にする。
ゼロショット設定では、対象の音色(音色プロンプトから)を正確に再構成し、指定された感情的トーン(スタイルプロンプトから)を完全に再現することができる。
高感情表現における音声明瞭度を高めるため、GPT潜在表現を取り入れ、生成した音声の安定性を向上させるために、新しい3段階訓練パラダイムを設計する。
さらに,感情制御の障壁を低くするために,微調整Qwen3によるテキスト記述に基づくソフト・インストラクション・メカニズムを設計した。
最後に、複数のデータセットに対する実験結果から、IndexTTS2は単語誤り率、話者類似度、感情的忠実度の観点から、最先端のゼロショットTSモデルより優れていることが示された。
オーディオサンプルは、https://index-tts.github.io/index-tts2.github.io/で入手できる。
関連論文リスト
- MPE-TTS: Customized Emotion Zero-Shot Text-To-Speech Using Multi-Modal Prompt [6.554565427680876]
マルチモーダルプロンプトに基づくZS-TTSシステムを提案する。
このシステムは、音声を内容、音色、感情、韻律に切り離し、感情のプロンプトをテキスト、画像、音声として提供する。
論文 参考訳(メタデータ) (2025-05-24T01:26:02Z) - EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting [48.56693150755667]
EmoVoiceは、大きな言語モデル(LLM)を利用して、きめ細かい自然言語の感情制御を可能にする、感情制御可能な新しいTSモデルである。
EmoVoice-DBは、表現力のある音声と自然言語記述によるきめ細かい感情ラベルを特徴とする、高品質な40時間感情データセットである。
論文 参考訳(メタデータ) (2025-04-17T11:50:04Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - PROEMO: Prompt-Driven Text-to-Speech Synthesis Based on Emotion and Intensity Control [20.873353104077857]
本稿では,素早い感情制御を中心にしたアプローチを提案する。
提案アーキテクチャは,複数話者間での感情と強度制御を取り入れたアーキテクチャである。
我々は,大言語モデル(LLM)を用いて,言語コンテンツを保存しながら音声韻律を操作する。
論文 参考訳(メタデータ) (2025-01-10T12:10:30Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Prosody-controllable spontaneous TTS with neural HMMs [11.472325158964646]
小型で不規則なデータセットから素早く学習できるTSアーキテクチャを提案する。
我々は既存のニューラルHMMベースのTSシステムに発話レベルの韻律制御を加える。
本研究では,2種類の難聴音声を合成するシステムの性能を評価する。
論文 参考訳(メタデータ) (2022-11-24T11:06:11Z) - Semi-supervised learning for continuous emotional intensity controllable
speech synthesis with disentangled representations [16.524515747017787]
半教師付き学習を用いて感情の連続的な強度を制御する新しい手法を提案する。
実験の結果,提案手法は制御性と自然性に優れていた。
論文 参考訳(メタデータ) (2022-11-11T12:28:07Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Emotional Prosody Control for Speech Generation [7.66200737962746]
本研究では,ユーザが連続的かつ有意義な感情空間から生成した音声の感情を選択することができるテキスト・トゥ・スピーチ(TTS)システムを提案する。
提案システムでは,任意の話者のスタイルでテキストから音声を生成することができる。
論文 参考訳(メタデータ) (2021-11-07T08:52:04Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。