Fugu-MT 論文翻訳(概要): CTC-TTS: LLM-based dual-streaming text-to-speech with CTC alignment

論文の概要: CTC-TTS: LLM-based dual-streaming text-to-speech with CTC alignment

arxiv url: http://arxiv.org/abs/2602.19574v1
Date: Mon, 23 Feb 2026 07:44:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.71686
Title: CTC-TTS: LLM-based dual-streaming text-to-speech with CTC alignment
Title（参考訳）: CTC-TTS:CTCアライメントによるLLMに基づく双方向音声合成
Authors: Hanwen Liu, Saierdaer Yusuyin, Hao Huang, Zhijian Ou,
Abstract要約: 大モデル(LLM)ベースのテキスト音声合成システム(TTS)は自然な音声を生成することができるが、多くは低レイテンシのデュアルストリーム合成のために設計されていない。我々は,MFAをCTCベースのアライメント器に置き換えたCTC-TTSを提案し,バイワードベースのインターリーブ戦略を提案する。 CTC-TTSは、ストリーミング合成とゼロショットタスクにおいて、固定比インターリービングとMFAベースのベースラインよりも優れていた。
参考スコア（独自算出の注目度）: 10.846147104273959
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-language-model (LLM)-based text-to-speech (TTS) systems can generate natural speech, but most are not designed for low-latency dual-streaming synthesis. High-quality dual-streaming TTS depends on accurate text--speech alignment and well-designed training sequences that balance synthesis quality and latency. Prior work often relies on GMM-HMM based forced-alignment toolkits (e.g., MFA), which are pipeline-heavy and less flexible than neural aligners; fixed-ratio interleaving of text and speech tokens struggles to capture text--speech alignment regularities. We propose CTC-TTS, which replaces MFA with a CTC based aligner and introduces a bi-word based interleaving strategy. Two variants are designed: CTC-TTS-L (token concatenation along the sequence length) for higher quality and CTC-TTS-F (embedding stacking along the feature dimension) for lower latency. Experiments show that CTC-TTS outperforms fixed-ratio interleaving and MFA-based baselines on streaming synthesis and zero-shot tasks. Speech samples are available at https://ctctts.github.io/.
Abstract（参考訳）: 大言語モデル(LLM)ベースのテキスト音声合成システム(TTS)は自然な音声を生成することができるが、多くは低レイテンシのデュアルストリーム合成のために設計されていない。高品質なデュアルストリーミングTSは、正確なテキストアライメントと、合成品質とレイテンシのバランスをとるよく設計されたトレーニングシーケンスに依存します。従来の作業はGMM-HMMベースの強制アライメントツールキット(例:MFA)に依存しており、パイプライン重く、ニューラルアライメントよりも柔軟性が低い。我々は,MFAをCTCベースのアライメント器に置き換えたCTC-TTSを提案し,バイワードベースのインターリーブ戦略を提案する。 CTC-TTS-L(シーケンス長に沿って接続する)とCTC-TTS-F(特徴次元に沿って積み重ねる)の2つのバリエーションが設計されている。 CTC-TTSは、ストリーミング合成とゼロショットタスクにおいて、固定比インターリービングとMFAベースのベースラインよりも優れていた。音声サンプルはhttps://ctctts.github.io/.com/で公開されている。

関連論文リスト

Qwen3-TTS Technical Report [64.94647392030824]
本稿では,Qwen3-TTSシリーズについて述べる。 Qwen3-TTSは最先端の3秒間音声クローニングと記述ベースの制御をサポートする。 Qwen3-TTSは、2つの音声トークンとともに、リアルタイム合成のためのデュアルトラックLMアーキテクチャを採用している。
論文参考訳（メタデータ） (2026-01-22T03:51:43Z)
Revisiting Direct Speech-to-Text Translation with Speech LLMs: Better Scaling than CoT Prompting? [13.202203902821333]
音声からテキストへの変換(S2TT)データの増加にともなって,Chain-of-Thought(CoT)とDirect prompting(ダイレクトプロンプト)を体系的に比較した。以上の結果から,データ量の増加に伴いDirectはより一貫した改善を行い,より大きなS2TTリソースが生成されるにつれて,より効果的なアプローチになる可能性が示唆された。
論文参考訳（メタデータ） (2025-10-03T15:23:32Z)
GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。 GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2025-04-15T01:44:56Z)
SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System [10.156665325783583]
SupertonicTTSは、効率的な音声合成のために設計された新しい音声合成システムである。我々は、軽量アーキテクチャを実現するために、低次元の潜伏空間、潜伏空間の時間圧縮、およびConvNeXtブロックを用いる。実験の結果、SupertonicTTSは、44Mパラメータしか持たない現代のゼロショットTSモデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2025-03-29T14:59:32Z)
Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文参考訳（メタデータ） (2025-03-03T16:23:10Z)
MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文参考訳（メタデータ） (2025-02-26T08:22:00Z)
Clip-TTS: Contrastive Text-content and Mel-spectrogram, A High-Quality Text-to-Speech Method based on Contextual Semantic Understanding [0.6798775532273751]
Clip アーキテクチャに基づく TTS 方式 Clip-TTS を提案する。この方法はClipフレームワークを用いてテキストエンコーディングの段階でテキストコンテンツと実際のメル-スペクトログラムの接続を確立する。モデルアーキテクチャに関しては、Clip-TTSが高速な推論速度を実現するためのTransformerの基本構造を採用しています。
論文参考訳（メタデータ） (2025-02-26T07:09:33Z)
SyncSpeech: Low-Latency and Efficient Dual-Stream Text-to-Speech based on Temporal Masked Transformer [68.78023656892319]
本稿では、ストリーミング音声を同時に生成しながら、上流モデルからストリーミングテキスト入力を受信できる、双方向ストリームテキスト音声(TTS)モデルSyncSpeechを提案する。 SyncSpeechには次のような利点がある: 低レイテンシ、第2のテキストトークンの受信時にストリーミング音声を生成し始めるとき、高効率、そして、受信したテキストトークンに対応するすべての音声トークンを1ステップでデコードするとき、。
論文参考訳（メタデータ） (2025-02-16T12:14:17Z)
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文参考訳（メタデータ） (2022-04-06T17:59:22Z)
AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文参考訳（メタデータ） (2021-04-20T01:53:30Z)
MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文参考訳（メタデータ） (2020-06-08T15:05:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。