論文の概要: Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input
- arxiv url: http://arxiv.org/abs/2603.06444v1
- Date: Fri, 06 Mar 2026 16:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.204844
- Title: Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input
- Title(参考訳): テキスト入力によるLDMベースTSの韻律境界認識ストリーム生成
- Authors: Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong Chng,
- Abstract要約: ストリーミングテキストを受信するストリーミングTSは、インタラクティブシステムにとって不可欠である。
しかし、このスキームは2つの大きな課題に直面している。
本稿では,弱い時間整合データを用いて事前学習したLLMベースのTSモデルを適応した韻律的境界認識後学習戦略を提案する。
- 参考スコア(独自算出の注目度): 37.127877690220934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming TTS that receives streaming text is essential for interactive systems, yet this scheme faces two major challenges: unnatural prosody due to missing lookahead and long-form collapse due to unbounded context. We propose a prosodic-boundary-aware post-training strategy, adapting a pretrained LLM-based TTS model using weakly time-aligned data. Specifically, the model is adapted to learn early stopping at specified content boundaries when provided with limited future text. During inference, a sliding-window prompt carries forward previous text and speech tokens, ensuring bounded context and seamless concatenation. Evaluations show our method outperforms CosyVoice-Style interleaved baseline in both short and long-form scenarios. In long-text synthesis, especially, it achieves a 66.2% absolute reduction in word error rate (from 71.0% to 4.8%) and increases speaker and emotion similarity by 16.1% and 1.5% relatively, offering a robust solution for streaming TTS with incremental text.
- Abstract(参考訳): ストリーミングテキストを受信するストリーミングTSはインタラクティブシステムには不可欠だが、このスキームは2つの大きな課題に直面している。
本稿では,弱い時間整合データを用いて事前学習したLLMベースのTSモデルを適応した韻律的境界認識後学習戦略を提案する。
具体的には、将来的な限られたテキストが提供される場合に、指定されたコンテンツ境界の早期停止を学習するように適応する。
推論中、スライドウインドウプロンプトは前のテキストと音声トークンを転送し、コンテキスト境界を確保し、シームレスに結合する。
CosyVoice-Styleインターリーブベースラインのショートおよびロングフォームシナリオにおいて,本手法よりも優れた性能を示す。
特に長文合成では、単語エラー率の66.2%(71.0%から4.8%)を絶対的に削減し、話者と感情の類似度を16.1%、相対的に1.5%増加させ、インクリメンタルテキストでTTSをストリーミングするための堅牢なソリューションを提供する。
関連論文リスト
- Adaptive Duration Model for Text Speech Alignment [2.594813802197567]
音声からテキストへのアライメントは、ニューラルテキストから音声へのアライメント(TTS)モデルの重要な構成要素である。
そこで本研究では,音素レベルの持続時間分布を与えられたテキストで予測できる新しい持続時間予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-30T12:31:11Z) - StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。
高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。
オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文 参考訳(メタデータ) (2025-06-14T16:53:39Z) - Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System [10.156665325783583]
SupertonicTTSは、効率的な音声合成のために設計された新しい音声合成システムである。
我々は、軽量アーキテクチャを実現するために、低次元の潜伏空間、潜伏空間の時間圧縮、およびConvNeXtブロックを用いる。
実験の結果、SupertonicTTSは、44Mパラメータしか持たない現代のゼロショットTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-03-29T14:59:32Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - DiTTo-TTS: Diffusion Transformers for Scalable Text-to-Speech without Domain-Specific Factors [8.419383213705789]
本稿では,Diffusion Transformer (DiT) ベースのTSモデルであるDiTTo-TTSを導入し,LDMベースのTSがドメイン固有の要因を伴わずに最先端の性能を達成できるかどうかを検討する。
最小修正のDiTは、U-Netよりも優れており、音声長予測器による可変長モデリング、音声潜在表現のセマンティックアライメントなどの条件は、さらなる拡張の鍵となる。
論文 参考訳(メタデータ) (2024-06-17T11:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。