論文の概要: IndexTTS 2.5 Technical Report
- arxiv url: http://arxiv.org/abs/2601.03888v1
- Date: Wed, 07 Jan 2026 12:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.56205
- Title: IndexTTS 2.5 Technical Report
- Title(参考訳): IndexTTS 2.5テクニカルレポート
- Authors: Yunpei Li, Xun Zhou, Jinchao Wang, Lu Wang, Yong Wu, Siyi Zhou, Yiquan Zhou, Jingchen Shu,
- Abstract要約: IndexTTS 2.5は多言語カバレッジ、推論速度、全体的な合成品質を著しく改善する。
我々は、S2MモジュールのU言語Tベースのバックボーンを置き換え、ゼロショット多言語感情的TSのための実用的な設計原理を確立する。
GRPOをT2Sモジュールの訓練後に適用し,発音精度と経鼻摂取性を改善した。
- 参考スコア(独自算出の注目度): 15.633832302970058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In prior work, we introduced IndexTTS 2, a zero-shot neural text-to-speech foundation model comprising two core components: a transformer-based Text-to-Semantic (T2S) module and a non-autoregressive Semantic-to-Mel (S2M) module, which together enable faithful emotion replication and establish the first autoregressive duration-controllable generative paradigm. Building upon this, we present IndexTTS 2.5, which significantly enhances multilingual coverage, inference speed, and overall synthesis quality through four key improvements: 1) Semantic Codec Compression: we reduce the semantic codec frame rate from 50 Hz to 25 Hz, halving sequence length and substantially lowering both training and inference costs; 2) Architectural Upgrade: we replace the U-DiT-based backbone of the S2M module with a more efficient Zipformer-based modeling architecture, achieving notable parameter reduction and faster mel-spectrogram generation; 3) Multilingual Extension: We propose three explicit cross-lingual modeling strategies, boundary-aware alignment, token-level concatenation, and instruction-guided generation, establishing practical design principles for zero-shot multilingual emotional TTS that supports Chinese, English, Japanese, and Spanish, and enables robust emotion transfer even without target-language emotional training data; 4) Reinforcement Learning Optimization: we apply GRPO in post-training of the T2S module, improving pronunciation accuracy and natrualness. Experiments show that IndexTTS 2.5 not only supports broader language coverage but also replicates emotional prosody in unseen languages under the same zero-shot setting. IndexTTS 2.5 achieves a 2.28 times improvement in RTF while maintaining comparable WER and speaker similarity to IndexTTS 2.
- Abstract(参考訳): IndexTTS 2は、トランスフォーマーベースのText-to-Semantic(T2S)モジュールと非自己回帰Semantic-to-Mel(S2M)モジュールの2つのコアコンポーネントから構成されるゼロショットニューラルテキスト音声基盤モデルである。
これに基づいてIndexTTS 2.5が提供され、多言語カバレッジ、推論速度、全体的な合成品質を4つの重要な改善点を通じて大幅に向上する。
1)セマンティックコーデック圧縮: セマンティックコーデックのフレームレートを50Hzから25Hzに減らし, シーケンス長を半減し, トレーニングと推論の両方のコストを大幅に削減する。
2) アーキテクチャのアップグレード:S2MモジュールのU-DiTベースのバックボーンをより効率的なZipformerベースのモデリングアーキテクチャに置き換え、顕著なパラメータ削減と高速なメル-スペクトログラム生成を実現した。
3)日本語・英語・日本語・スペイン語をサポートするゼロショット多言語感情的TSSの実践的設計原則を確立するとともに,目標言語感情的トレーニングデータなしでも堅牢な感情伝達を可能にすることを目的として,言語間相互モデリング戦略,境界認識アライメント,トークンレベル連結,命令誘導生成を提案する。
4) 強化学習最適化: GRPOをT2Sモジュールの訓練後に適用し, 発音精度とナトリウム度を向上する。
実験によると、IndexTTS 2.5はより広範な言語カバレッジをサポートするだけでなく、同じゼロショット設定の下で、見えない言語で感情的な韻律を再現する。
IndexTTS 2.5は、IndexTTS 2と同等のWERと話者類似性を保ちながら、RTFの2.28倍の改善を実現している。
関連論文リスト
- GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。
GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。
実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:44:56Z) - DiM-Gestor: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 [6.6954598568836925]
DiM-GestorはMamba-2アーキテクチャを利用したエンドツーエンドの生成モデルである。
Mamba-2上にファジィ特徴抽出器と音声・ジェスチャーマッピングモジュールを構築する。
提案手法は競合する結果をもたらし,メモリ使用量を約2.4倍に削減し,推論速度を2~4倍に向上させる。
論文 参考訳(メタデータ) (2024-11-23T08:02:03Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Leveraging Parameter-Efficient Transfer Learning for Multi-Lingual Text-to-Speech Adaptation [27.78435674869292]
異なる言語は異なる音声システムを持ち、その韻律的特徴が異なるため、テキスト音声モデルの開発は困難である。
本稿では,多言語音声合成のためのTTSアーキテクチャを用いて,アダプタやハイパーネットワークなどのパラメータ効率変換学習(PETL)手法を統合することを提案する。
論文 参考訳(メタデータ) (2024-06-25T03:50:54Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Incremental Speech Synthesis For Speech-To-Speech Translation [23.951060578077445]
本稿では,TSモデルの逐次合成性能の向上に焦点をあてる。
プレフィックスに基づく単純なデータ拡張戦略により、インクリメンタルTS品質を改善してオフラインパフォーマンスにアプローチすることが可能になります。
本稿では,S2STアプリケーションに適したレイテンシメトリクスを提案し,このコンテキストにおける遅延低減手法について検討する。
論文 参考訳(メタデータ) (2021-10-15T17:20:28Z) - ESPnet2-TTS: Extending the Edge of TTS Research [62.92178873052468]
ESPnet2-TTSは、E2E-TTS(E2E-TTS)ツールキットである。
新機能としては、オンザフライフレキシブルプリプロセッシング、ニューラルボコーダとのジョイントトレーニング、フルバンドE2Eテキスト・トゥ・ウェーブフォームモデリングのような拡張を備えた最先端のTSモデルなどがある。
論文 参考訳(メタデータ) (2021-10-15T03:27:45Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。