Fugu-MT 論文翻訳(概要): VoXtream: Full-Stream Text-to-Speech with Extremely Low Latency

論文の概要: VoXtream: Full-Stream Text-to-Speech with Extremely Low Latency

arxiv url: http://arxiv.org/abs/2509.15969v1
Date: Fri, 19 Sep 2025 13:26:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-22 18:18:11.182079
Title: VoXtream: Full-Stream Text-to-Speech with Extremely Low Latency
Title（参考訳）: VoXtream:極低レイテンシのフルストリームテキスト音声合成
Authors: Nikita Torgashov, Gustav Eje Henter, Gabriel Skantze,
Abstract要約: 本稿では,VoXtreamについて紹介する。VoXtreamは,最初の単語から始まるリアルタイム使用のための,完全自動回帰・ゼロショットストリーミングテキスト音声合成システムである。 VoXtreamは、モノトニックアライメントスキームと、オンセットを遅らせない動的ルックアヘッドを使用して、入ってくる音素を直接オーディオトークンにマッピングする。インクリメンタルな音素変換器、意味的および持続的トークンを予測する時間変換器、音響トークンを生成する深さ変換器を中心に構築されたVoXtreamは、我々の知る限り、一般に利用可能なストリーミングTSの最低遅延である102msを達成している。
参考スコア（独自算出の注目度）: 17.067283475630095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present VoXtream, a fully autoregressive, zero-shot streaming text-to-speech (TTS) system for real-time use that begins speaking from the first word. VoXtream directly maps incoming phonemes to audio tokens using a monotonic alignment scheme and a dynamic look-ahead that does not delay onset. Built around an incremental phoneme transformer, a temporal transformer predicting semantic and duration tokens, and a depth transformer producing acoustic tokens, VoXtream achieves, to our knowledge, the lowest initial delay among publicly available streaming TTS: 102 ms on GPU. Despite being trained on a mid-scale 9k-hour corpus, it matches or surpasses larger baselines on several metrics, while delivering competitive quality in both output- and full-streaming settings. Demo and code are available at https://herimor.github.io/voxtream.
Abstract（参考訳）: 本稿では,VoXtreamについて紹介する。VoXtreamは,最初の単語から始まるリアルタイム使用のための,完全自動回帰・ゼロショットストリーミングテキスト音声合成システムである。 VoXtreamは、モノトニックアライメントスキームと、オンセットを遅らせない動的ルックアヘッドを使用して、入ってくる音素を直接オーディオトークンにマッピングする。インクリメンタルな音素変換器,セマンティックトークンと持続トークンを予測する時間変換器,および音響トークンを生成する深さ変換器を中心に構築されたVoXtreamは,私たちの知る限り,GPU上で102msのストリーミングTSにおいて,最も低い初期遅延を達成している。中規模の9k時間コーパスでトレーニングされているにもかかわらず、アウトプットとフルストリーミングの両方で競争力のある品質を提供する一方で、いくつかのメトリクスでより大きなベースラインをマッチまたは超える。デモとコードはhttps://herimor.github.io/voxtream.comで公開されている。

関連論文リスト

Voxtral Realtime [134.66962524291424]
Voxtral Realtimeはストリーミング自動音声認識モデルである。オフラインの書き込み品質は、秒以下のレイテンシで一致します。私たちはApache 2.0ライセンスの下でモデルウェイトをリリースしています。
論文参考訳（メタデータ） (2026-02-11T19:17:10Z)
Qwen3-TTS Technical Report [64.94647392030824]
本稿では,Qwen3-TTSシリーズについて述べる。 Qwen3-TTSは最先端の3秒間音声クローニングと記述ベースの制御をサポートする。 Qwen3-TTSは、2つの音声トークンとともに、リアルタイム合成のためのデュアルトラックLMアーキテクチャを採用している。
論文参考訳（メタデータ） (2026-01-22T03:51:43Z)
StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文参考訳（メタデータ） (2025-06-14T16:53:39Z)
SpeakStream: Streaming Text-to-Speech with Interleaved Data [11.131427505801062]
本稿では,デコーダのみのアーキテクチャを用いて,ストリーミングテキストからインクリメンタルに音声を生成するストリーミングTSシステムであるSpeakStreamを紹介する。推論中、SpeakStreamはストリーミング入力テキストを吸収しながら音声を漸進的に生成する。実験の結果,SpeakStream は非ストリーミング TTS システムの品質を維持しつつ,最先端のレイテンシを実現することができた。
論文参考訳（メタデータ） (2025-05-25T16:11:10Z)
Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文参考訳（メタデータ） (2025-03-03T16:23:10Z)
SyncSpeech: Low-Latency and Efficient Dual-Stream Text-to-Speech based on Temporal Masked Transformer [68.78023656892319]
本稿では、ストリーミング音声を同時に生成しながら、上流モデルからストリーミングテキスト入力を受信できる、双方向ストリームテキスト音声(TTS)モデルSyncSpeechを提案する。 SyncSpeechには次のような利点がある: 低レイテンシ、第2のテキストトークンの受信時にストリーミング音声を生成し始めるとき、高効率、そして、受信したテキストトークンに対応するすべての音声トークンを1ステップでデコードするとき、。
論文参考訳（メタデータ） (2025-02-16T12:14:17Z)
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。 NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文参考訳（メタデータ） (2023-04-18T16:31:59Z)
MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文参考訳（メタデータ） (2020-06-08T15:05:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。