論文の概要: CTC-TTS: LLM-based dual-streaming text-to-speech with CTC alignment
- arxiv url: http://arxiv.org/abs/2602.19574v1
- Date: Mon, 23 Feb 2026 07:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.71686
- Title: CTC-TTS: LLM-based dual-streaming text-to-speech with CTC alignment
- Title(参考訳): CTC-TTS:CTCアライメントによるLLMに基づく双方向音声合成
- Authors: Hanwen Liu, Saierdaer Yusuyin, Hao Huang, Zhijian Ou,
- Abstract要約: 大モデル(LLM)ベースのテキスト音声合成システム(TTS)は自然な音声を生成することができるが、多くは低レイテンシのデュアルストリーム合成のために設計されていない。
我々は,MFAをCTCベースのアライメント器に置き換えたCTC-TTSを提案し,バイワードベースのインターリーブ戦略を提案する。
CTC-TTSは、ストリーミング合成とゼロショットタスクにおいて、固定比インターリービングとMFAベースのベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 10.846147104273959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-language-model (LLM)-based text-to-speech (TTS) systems can generate natural speech, but most are not designed for low-latency dual-streaming synthesis. High-quality dual-streaming TTS depends on accurate text--speech alignment and well-designed training sequences that balance synthesis quality and latency. Prior work often relies on GMM-HMM based forced-alignment toolkits (e.g., MFA), which are pipeline-heavy and less flexible than neural aligners; fixed-ratio interleaving of text and speech tokens struggles to capture text--speech alignment regularities. We propose CTC-TTS, which replaces MFA with a CTC based aligner and introduces a bi-word based interleaving strategy. Two variants are designed: CTC-TTS-L (token concatenation along the sequence length) for higher quality and CTC-TTS-F (embedding stacking along the feature dimension) for lower latency. Experiments show that CTC-TTS outperforms fixed-ratio interleaving and MFA-based baselines on streaming synthesis and zero-shot tasks. Speech samples are available at https://ctctts.github.io/.
- Abstract(参考訳): 大言語モデル(LLM)ベースのテキスト音声合成システム(TTS)は自然な音声を生成することができるが、多くは低レイテンシのデュアルストリーム合成のために設計されていない。
高品質なデュアルストリーミングTSは、正確なテキストアライメントと、合成品質とレイテンシのバランスをとるよく設計されたトレーニングシーケンスに依存します。
従来の作業はGMM-HMMベースの強制アライメントツールキット(例:MFA)に依存しており、パイプライン重く、ニューラルアライメントよりも柔軟性が低い。
我々は,MFAをCTCベースのアライメント器に置き換えたCTC-TTSを提案し,バイワードベースのインターリーブ戦略を提案する。
CTC-TTS-L(シーケンス長に沿って接続する)とCTC-TTS-F(特徴次元に沿って積み重ねる)の2つのバリエーションが設計されている。
CTC-TTSは、ストリーミング合成とゼロショットタスクにおいて、固定比インターリービングとMFAベースのベースラインよりも優れていた。
音声サンプルはhttps://ctctts.github.io/.com/で公開されている。
関連論文リスト
- SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System [10.156665325783583]
SupertonicTTSは、効率的な音声合成のために設計された新しい音声合成システムである。
我々は、軽量アーキテクチャを実現するために、低次元の潜伏空間、潜伏空間の時間圧縮、およびConvNeXtブロックを用いる。
実験の結果、SupertonicTTSは、44Mパラメータしか持たない現代のゼロショットTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-03-29T14:59:32Z) - Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。
制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文 参考訳(メタデータ) (2025-03-03T16:23:10Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - Clip-TTS: Contrastive Text-content and Mel-spectrogram, A High-Quality Text-to-Speech Method based on Contextual Semantic Understanding [0.6798775532273751]
Clip アーキテクチャに基づく TTS 方式 Clip-TTS を提案する。
この方法はClipフレームワークを用いてテキストエンコーディングの段階でテキストコンテンツと実際のメル-スペクトログラムの接続を確立する。
モデルアーキテクチャに関しては、Clip-TTSが高速な推論速度を実現するためのTransformerの基本構造を採用しています。
論文 参考訳(メタデータ) (2025-02-26T07:09:33Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。