論文の概要: IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
- arxiv url: http://arxiv.org/abs/2502.05512v1
- Date: Sat, 08 Feb 2025 10:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:29:48.127438
- Title: IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
- Title(参考訳): IndexTTS: 産業レベルの制御可能で効率的なゼロショットテキスト音声合成システム
- Authors: Wei Deng, Siyi Zhou, Jingchen Shu, Jinchao Wang, Lu Wang,
- Abstract要約: 本稿では,主にXTTSとTortoiseモデルに基づくIndexTTSシステムを紹介する。
具体的には、中国語のシナリオでは、文字とピンインを組み合わせたハイブリッドなモデリング手法を採用する。
XTTSと比較すると、自然性、コンテンツ一貫性、ゼロショット音声クローンの大幅な改善が達成されている。
- 参考スコア(独自算出の注目度): 6.686126079510178
- License:
- Abstract: Recently, large language model (LLM) based text-to-speech (TTS) systems have gradually become the mainstream in the industry due to their high naturalness and powerful zero-shot voice cloning capabilities.Here, we introduce the IndexTTS system, which is mainly based on the XTTS and Tortoise model. We add some novel improvements. Specifically, in Chinese scenarios, we adopt a hybrid modeling method that combines characters and pinyin, making the pronunciations of polyphonic characters and long-tail characters controllable. We also performed a comparative analysis of the Vector Quantization (VQ) with Finite-Scalar Quantization (FSQ) for codebook utilization of acoustic speech tokens. To further enhance the effect and stability of voice cloning, we introduce a conformer-based speech conditional encoder and replace the speechcode decoder with BigVGAN2. Compared with XTTS, it has achieved significant improvements in naturalness, content consistency, and zero-shot voice cloning. As for the popular TTS systems in the open-source, such as Fish-Speech, CosyVoice2, FireRedTTS and F5-TTS, IndexTTS has a relatively simple training process, more controllable usage, and faster inference speed. Moreover, its performance surpasses that of these systems. Our demos are available at https://index-tts.github.io.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) に基づくテキスト音声合成システム (TTS) が,XTTS と Tortoise を主軸としたIndexTTS システムを導入し,高い自然性と強力なゼロショット音声クローニング機能により,業界において徐々に主流になりつつある。
新しい改良を加えました。
具体的には、中国語のシナリオにおいて、文字とピニインを組み合わせたハイブリッドなモデリング手法を採用し、ポリフォニック文字とロングテール文字の発音を制御可能にする。
また、音響音声トークンのコードブック利用のためのベクトル量子化(VQ)とFinite-Scalar量子化(FSQ)の比較分析を行った。
音声クローニングの効果と安定性をさらに高めるため,コンバータベースの音声条件エンコーダを導入し,音声デコーダをBigVGAN2に置き換える。
XTTSと比較すると、自然性、コンテンツ一貫性、ゼロショット音声クローンの大幅な改善が達成されている。
Fish-Speech、CosyVoice2、FireRedTTS、F5-TTSといったオープンソースで人気のあるTSシステムに関しては、IndexTTSは比較的単純なトレーニングプロセス、より制御可能な使用法、より高速な推論速度を持っている。
さらに、その性能はこれらのシステムを上回る。
私たちのデモはhttps://index-tts.github.io.comで公開されています。
関連論文リスト
- Lina-Speech: Gated Linear Attention is a Fast and Parameter-Efficient Learner for text-to-speech synthesis [7.2129341612013285]
従来の自己注意機構を,Gated Linear Attention (GLA)のような新たな再帰的アーキテクチャに置き換えるモデルであるLina-Speechを紹介する。
このアプローチは高速で、デプロイが容易で、データセットのサイズが3分から15分に及ぶ場合に、微調整されたベースラインに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T04:50:40Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - ControlSpeech: Towards Simultaneous Zero-shot Speaker Cloning and Zero-shot Language Style Control With Decoupled Codec [50.273832905535485]
話者の声を完全に模倣し,任意の発話スタイルの制御と調整を可能にするTTSシステムであるControlSpeechを提案する。
以前のゼロショットTSモデルとコントロール可能なTSモデルは、さらなる制御と調整機能なしでスピーカーの声を模倣することしかできず、スピーカー固有の音声生成とは無関係であった。
論文 参考訳(メタデータ) (2024-06-03T11:15:16Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Towards Natural and Controllable Cross-Lingual Voice Conversion Based on
Neural TTS Model and Phonetic Posteriorgram [21.652906261475533]
言語間の音声変換は、音素集合のかなりのミスマッチと異なる言語の音声韻律のために難しい問題である。
我々は、新しい言語間VCフレームワークであるFastSpeech-VCを設計するために、ニューラルテキスト音声(TTS)モデルを構築した。
論文 参考訳(メタデータ) (2021-02-03T10:28:07Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。