論文の概要: StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling
- arxiv url: http://arxiv.org/abs/2506.12570v1
- Date: Sat, 14 Jun 2025 16:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.489431
- Title: StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling
- Title(参考訳): StreamMel: 継続的自己回帰モデリングによるリアルタイムゼロショットテキスト音声合成
- Authors: Hui Wang, Yifan Yang, Shujie Liu, Jinyu Li, Lingwei Meng, Yanqing Liu, Jiaming Zhou, Haoqin Sun, Yan Lu, Yong Qin,
- Abstract要約: StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。
高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。
オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
- 参考スコア(独自算出の注目度): 50.537794606598254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in zero-shot text-to-speech (TTS) synthesis have achieved high-quality speech generation for unseen speakers, but most systems remain unsuitable for real-time applications because of their offline design. Current streaming TTS paradigms often rely on multi-stage pipelines and discrete representations, leading to increased computational cost and suboptimal system performance. In this work, we propose StreamMel, a pioneering single-stage streaming TTS framework that models continuous mel-spectrograms. By interleaving text tokens with acoustic frames, StreamMel enables low-latency, autoregressive synthesis while preserving high speaker similarity and naturalness. Experiments on LibriSpeech demonstrate that StreamMel outperforms existing streaming TTS baselines in both quality and latency. It even achieves performance comparable to offline systems while supporting efficient real-time generation, showcasing broad prospects for integration with real-time speech large language models. Audio samples are available at: https://aka.ms/StreamMel.
- Abstract(参考訳): ゼロショット音声合成(TTS)の最近の進歩は、目に見えない話者にとって高品質な音声生成を実現しているが、ほとんどのシステムはオフライン設計のため、リアルタイムアプリケーションには適していない。
現在のストリーミングTSパラダイムは、しばしばマルチステージパイプラインと離散表現に依存しており、計算コストとサブ最適システム性能が向上する。
本研究では,連続メル-スペクトログラムをモデル化する単一ステージストリーミングTTSフレームワークであるStreamMelを提案する。
テキストトークンを音響フレームでインターリーブすることで、StreamMelは低レイテンシで自己回帰的な合成を可能にし、高い話者類似性と自然性を保っている。
LibriSpeechの実験では、StreamMelが既存のストリーミングTSベースラインを品質とレイテンシの両方で上回っていることが示されている。
オフラインシステムに匹敵するパフォーマンスを達成しつつ、効率的なリアルタイム生成をサポートし、リアルタイム音声大言語モデルとの統合の可能性を示している。
オーディオサンプルは、https://aka.ms/StreamMel.comで入手できる。
関連論文リスト
- Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - SpeakStream: Streaming Text-to-Speech with Interleaved Data [11.131427505801062]
本稿では,デコーダのみのアーキテクチャを用いて,ストリーミングテキストからインクリメンタルに音声を生成するストリーミングTSシステムであるSpeakStreamを紹介する。
推論中、SpeakStreamはストリーミング入力テキストを吸収しながら音声を漸進的に生成する。
実験の結果,SpeakStream は非ストリーミング TTS システムの品質を維持しつつ,最先端のレイテンシを実現することができた。
論文 参考訳(メタデータ) (2025-05-25T16:11:10Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [70.25062476543091]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。