Fugu-MT 論文翻訳(概要): SpeakStream: Streaming Text-to-Speech with Interleaved Data

論文の概要: SpeakStream: Streaming Text-to-Speech with Interleaved Data

arxiv url: http://arxiv.org/abs/2505.19206v1
Date: Sun, 25 May 2025 16:11:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.977226
Title: SpeakStream: Streaming Text-to-Speech with Interleaved Data
Title（参考訳）: SpeakStream: インターリーブデータによるテキストから音声へのストリーミング
Authors: Richard He Bai, Zijin Gu, Tatiana Likhomanenko, Navdeep Jaitly,
Abstract要約: 本稿では,デコーダのみのアーキテクチャを用いて,ストリーミングテキストからインクリメンタルに音声を生成するストリーミングTSシステムであるSpeakStreamを紹介する。推論中、SpeakStreamはストリーミング入力テキストを吸収しながら音声を漸進的に生成する。実験の結果,SpeakStream は非ストリーミング TTS システムの品質を維持しつつ,最先端のレイテンシを実現することができた。
参考スコア（独自算出の注目度）: 11.131427505801062
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The latency bottleneck of traditional text-to-speech (TTS) systems fundamentally hinders the potential of streaming large language models (LLMs) in conversational AI. These TTS systems, typically trained and inferenced on complete utterances, introduce unacceptable delays, even with optimized inference speeds, when coupled with streaming LLM outputs. This is particularly problematic for creating responsive conversational agents where low first-token latency is critical. In this paper, we present SpeakStream, a streaming TTS system that generates audio incrementally from streaming text using a decoder-only architecture. SpeakStream is trained using a next-step prediction loss on interleaved text-speech data. During inference, it generates speech incrementally while absorbing streaming input text, making it particularly suitable for cascaded conversational AI agents where an LLM streams text to a TTS system. Our experiments demonstrate that SpeakStream achieves state-of-the-art latency results in terms of first-token latency while maintaining the quality of non-streaming TTS systems.
Abstract（参考訳）: 従来のテキスト音声(TTS)システムのレイテンシボトルネックは、会話型AIにおいて大きな言語モデル(LLM)をストリーミングする可能性を根本的に妨げている。これらのTSシステムは、通常訓練され、完全な発話に基づいて推論されるが、ストリーミングLLM出力と組み合わせて最適化された推論速度であっても、許容できない遅延をもたらす。これは、応答性のある会話エージェントを作成する場合に特に問題となる。本稿では,デコーダのみのアーキテクチャを用いて,ストリーミングテキストからインクリメンタルに音声を生成するストリーミングTTSシステムであるSpeakStreamを提案する。 SpeakStreamは、インターリーブされたテキスト音声データに対して、次のステップの予測損失を使用してトレーニングされる。推論中は、ストリーミング入力テキストを吸収しながら音声を漸進的に生成し、LLMがテキストをTSシステムにストリーミングするケースド会話型AIエージェントに特に適している。実験により,SpeakStream は非ストリーミング TTS システムの品質を維持しつつ,第1段階のレイテンシで最先端のレイテンシを達成できることが実証された。

関連論文リスト

StreamUni: Achieving Streaming Speech Translation with a Unified Large Speech-Language Model [20.978001644716063]
ストリーム音声翻訳(StreamST)は、ポリシーとして知られる適切なタイミングで翻訳を生成する必要がある。既存のStreamSTメソッドは通常、同時音声翻訳(SimulST)と呼ばれる文レベルの音声セグメントで動作する。本稿では,Large Speech-Language Model (LSLM) を用いてStreamSTを実現するStreamUniを提案する。
論文参考訳（メタデータ） (2025-07-10T14:28:39Z)
PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction [29.64357898080842]
大規模言語モデル(LLM)は、音声応答を生成するためのテキスト音声合成(TTS)システムと組み合わせたリアルタイム音声チャットアプリケーションで広く使われている。その大きなサイズは、しばしばユーザ入力の終端からオーディオ出力の開始までの顕著なレイテンシをもたらす。予測生成(PredGen)は,入力時の投機的復号化による遅延を軽減あるいは解消する新しいフレームワークである。
論文参考訳（メタデータ） (2025-06-18T15:29:02Z)
StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文参考訳（メタデータ） (2025-06-14T16:53:39Z)
Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-26T08:25:01Z)
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [70.25062476543091]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。 MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。 4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文参考訳（メタデータ） (2025-05-06T17:59:53Z)
SimulS2S-LLM: Unlocking Simultaneous Inference of Speech LLMs for Speech-to-Speech Translation [14.57248739077317]
本稿では,LLMをオフラインで学習するSimulS2S-LLMを提案する。 SimulS2S-LLMは、個別の音声トークンを予測し、事前訓練されたボコーダを用いて出力音声を合成することにより、同時音声音声変換(Simul-S2ST)を実現する。
論文参考訳（メタデータ） (2025-04-22T01:05:32Z)
SyncSpeech: Low-Latency and Efficient Dual-Stream Text-to-Speech based on Temporal Masked Transformer [68.78023656892319]
本稿では、ストリーミング音声を同時に生成しながら、上流モデルからストリーミングテキスト入力を受信できる、双方向ストリームテキスト音声(TTS)モデルSyncSpeechを提案する。 SyncSpeechには次のような利点がある: 低レイテンシ、第2のテキストトークンの受信時にストリーミング音声を生成し始めるとき、高効率、そして、受信したテキストトークンに対応するすべての音声トークンを1ステップでデコードするとき、。
論文参考訳（メタデータ） (2025-02-16T12:14:17Z)
A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。 NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。 3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文参考訳（メタデータ） (2024-06-11T04:25:48Z)
StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection [23.75894159181602]
Streaming Speech-to-text Translation (StreamST)は、音声ストリームをインクリメンタルに受信しながら自動的に音声を翻訳するタスクである。第1のStreamSTポリシであるStreamAttを導入し,第1のStreamSTレイテンシメトリックであるStreamLAALを提案する。
論文参考訳（メタデータ） (2024-06-10T08:27:58Z)
Speak While You Think: Streaming Speech Synthesis During Text Generation [13.964169328257233]
大きな言語モデル(LLM)は印象的な能力を示しているが、これらのモデルとの相互作用は主にテキストで容易にできる。 LLM2Speechは、LLMによってテキストが生成されている間に音声を合成するアーキテクチャであり、遅延の大幅な低減をもたらす。
論文参考訳（メタデータ） (2023-09-20T11:00:15Z)
DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文参考訳（メタデータ） (2023-09-14T19:33:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。