論文の概要: Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling
- arxiv url: http://arxiv.org/abs/2505.19669v1
- Date: Mon, 26 May 2025 08:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.277203
- Title: Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling
- Title(参考訳): トランスデューサと自己回帰モデルを用いたゼロショット音声合成
- Authors: Haiyang Sun, Shujie Hu, Shujie Liu, Lingwei Meng, Hui Wang, Bing Han, Yifan Yang, Yanqing Liu, Sheng Zhao, Yan Lu, Yanmin Qian,
- Abstract要約: 既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 76.23539797803681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot streaming text-to-speech is an important research topic in human-computer interaction. Existing methods primarily use a lookahead mechanism, relying on future text to achieve natural streaming speech synthesis, which introduces high processing latency. To address this issue, we propose SMLLE, a streaming framework for generating high-quality speech frame-by-frame. SMLLE employs a Transducer to convert text into semantic tokens in real time while simultaneously obtaining duration alignment information. The combined outputs are then fed into a fully autoregressive (AR) streaming model to reconstruct mel-spectrograms. To further stabilize the generation process, we design a Delete < Bos > Mechanism that allows the AR model to access future text introducing as minimal delay as possible. Experimental results suggest that the SMLLE outperforms current streaming TTS methods and achieves comparable performance over sentence-level TTS systems. Samples are available on https://anonymous.4open.science/w/demo_page-48B7/.
- Abstract(参考訳): ゼロショットストリーミングによる音声合成は,人間とコンピュータのインタラクションにおいて重要な研究課題である。
既存の手法は主にルックアヘッド機構を使用し、将来的なテキストに依存して自然なストリーミング音声合成を実現し、高い処理遅延をもたらす。
そこで本研究では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークであるSMLLEを提案する。
SMLLEはTransducerを使用してテキストをリアルタイムでセマンティックトークンに変換し、同時に持続時間アライメント情報を取得する。
組み合わせた出力は、完全な自己回帰(AR)ストリーミングモデルに入力され、メル-スペクトログラムを再構成する。
生成プロセスをより安定させるために、ARモデルが可能な限り最小限の遅延を発生させるようなDelete <Bos > メカニズムを設計する。
実験結果から,SMLLE は現在のストリーミング TTS 法より優れ,文レベル TTS システムと同等の性能を発揮することが示唆された。
サンプルはhttps://anonymous.4open.science/w/demo_page-48B7/で入手できる。
関連論文リスト
- StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。
高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。
オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文 参考訳(メタデータ) (2025-06-14T16:53:39Z) - SpeakStream: Streaming Text-to-Speech with Interleaved Data [11.131427505801062]
本稿では,デコーダのみのアーキテクチャを用いて,ストリーミングテキストからインクリメンタルに音声を生成するストリーミングTSシステムであるSpeakStreamを紹介する。
推論中、SpeakStreamはストリーミング入力テキストを吸収しながら音声を漸進的に生成する。
実験の結果,SpeakStream は非ストリーミング TTS システムの品質を維持しつつ,最先端のレイテンシを実現することができた。
論文 参考訳(メタデータ) (2025-05-25T16:11:10Z) - Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - SupertonicTTS: Towards Highly Scalable and Efficient Text-to-Speech System [10.506722096503038]
音声合成におけるスケーラビリティと効率を向上させるために,新しい音声合成システムであるSupertonicTTSを提案する。
SupertonicTTSは、連続潜時表現のための音声オートエンコーダ、テキストからラテントマッピングのためのフローマッチングを利用するテキストからラテントモジュール、発話レベルの持続時間予測器の3つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-03-29T14:59:32Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。
微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。
テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文 参考訳(メタデータ) (2024-11-26T15:48:12Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - STYLER: Style Modeling with Rapidity and Robustness via
SpeechDecomposition for Expressive and Controllable Neural Text to Speech [2.622482339911829]
STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。
提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
論文 参考訳(メタデータ) (2021-03-17T07:11:09Z) - Flowtron: an Autoregressive Flow-based Generative Network for
Text-to-Speech Synthesis [23.115879727598262]
Flowtronは、音声合成のための自己回帰型フローベース生成ネットワークである。
学習中の音声の変動, サンプル間, 聴取者間のスタイル伝達の制御について検討した。
論文 参考訳(メタデータ) (2020-05-12T17:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。