論文の概要: Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling
- arxiv url: http://arxiv.org/abs/2505.19669v2
- Date: Mon, 02 Jun 2025 10:03:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:29.988945
- Title: Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling
- Title(参考訳): トランスデューサと自己回帰モデルを用いたゼロショット音声合成
- Authors: Haiyang Sun, Shujie Hu, Shujie Liu, Lingwei Meng, Hui Wang, Bing Han, Yifan Yang, Yanqing Liu, Sheng Zhao, Yan Lu, Yanmin Qian,
- Abstract要約: 既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 76.23539797803681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot streaming text-to-speech is an important research topic in human-computer interaction. Existing methods primarily use a lookahead mechanism, relying on future text to achieve natural streaming speech synthesis, which introduces high processing latency. To address this issue, we propose SMLLE, a streaming framework for generating high-quality speech frame-by-frame. SMLLE employs a Transducer to convert text into semantic tokens in real time while simultaneously obtaining duration alignment information. The combined outputs are then fed into a fully autoregressive (AR) streaming model to reconstruct mel-spectrograms. To further stabilize the generation process, we design a Delete < Bos > Mechanism that allows the AR model to access future text introducing as minimal delay as possible. Experimental results suggest that the SMLLE outperforms current streaming TTS methods and achieves comparable performance over sentence-level TTS systems. Samples are available on shy-98.github.io/SMLLE_demo_page/.
- Abstract(参考訳): ゼロショットストリーミングによる音声合成は,人間とコンピュータのインタラクションにおいて重要な研究課題である。
既存の手法は主にルックアヘッド機構を使用し、将来的なテキストに依存して自然なストリーミング音声合成を実現し、高い処理遅延をもたらす。
そこで本研究では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークであるSMLLEを提案する。
SMLLEはTransducerを使用してテキストをリアルタイムでセマンティックトークンに変換し、同時に持続時間アライメント情報を取得する。
組み合わせた出力は、完全な自己回帰(AR)ストリーミングモデルに入力され、メル-スペクトログラムを再構成する。
生成プロセスをより安定させるために、ARモデルが可能な限り最小限の遅延を発生させるようなDelete <Bos > メカニズムを設計する。
実験結果から,SMLLE は現在のストリーミング TTS 法より優れ,文レベル TTS システムと同等の性能を発揮することが示唆された。
サンプルはshy-98.github.io/SMLLE_demo_page/で入手できる。
関連論文リスト
- SpeakStream: Streaming Text-to-Speech with Interleaved Data [11.131427505801062]
本稿では,デコーダのみのアーキテクチャを用いて,ストリーミングテキストからインクリメンタルに音声を生成するストリーミングTSシステムであるSpeakStreamを紹介する。
推論中、SpeakStreamはストリーミング入力テキストを吸収しながら音声を漸進的に生成する。
実験の結果,SpeakStream は非ストリーミング TTS システムの品質を維持しつつ,最先端のレイテンシを実現することができた。
論文 参考訳(メタデータ) (2025-05-25T16:11:10Z) - Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - STYLER: Style Modeling with Rapidity and Robustness via
SpeechDecomposition for Expressive and Controllable Neural Text to Speech [2.622482339911829]
STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。
提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
論文 参考訳(メタデータ) (2021-03-17T07:11:09Z) - Flowtron: an Autoregressive Flow-based Generative Network for
Text-to-Speech Synthesis [23.115879727598262]
Flowtronは、音声合成のための自己回帰型フローベース生成ネットワークである。
学習中の音声の変動, サンプル間, 聴取者間のスタイル伝達の制御について検討した。
論文 参考訳(メタデータ) (2020-05-12T17:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。