Fugu-MT 論文翻訳(概要): VoXtream2: Full-stream TTS with dynamic speaking rate control

論文の概要: VoXtream2: Full-stream TTS with dynamic speaking rate control

arxiv url: http://arxiv.org/abs/2603.13518v1
Date: Fri, 13 Mar 2026 18:49:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.251065
Title: VoXtream2: Full-stream TTS with dynamic speaking rate control
Title（参考訳）: VoXtream2:動的発話率制御付きフルストリームTS
Authors: Nikita Torgashov, Gustav Eje Henter, Gabriel Skantze,
Abstract要約: VoXtream2は、動的発話速度制御を備えたゼロショットフルストリーム音声合成モデルである。プロンプトテキストマスキングは、テキストなしの音声プロンプトを可能にし、プロンプトの書き起こしを不要にする。フルストリームモードでは、コンシューマGPU上で74msのファーストパッケージレイテンシで、リアルタイムよりも4倍高速で動作する。
参考スコア（独自算出の注目度）: 17.067283475630095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Full-stream text-to-speech (TTS) for interactive systems must start speaking with minimal delay while remaining controllable as text arrives incrementally. We present VoXtream2, a zero-shot full-stream TTS model with dynamic speaking-rate control that can be updated mid-utterance on the fly. VoXtream2 combines a distribution matching mechanism over duration states with classifier-free guidance across conditioning signals to improve controllability and synthesis quality. Prompt-text masking enables textless audio prompting, removing the need for prompt transcription. Across standard zero-shot benchmarks and a dedicated speaking-rate test set, VoXtream2 achieves competitive objective and subjective results against public baselines despite a smaller model and less training data. In full-stream mode, it runs 4 times faster than real time with 74 ms first-packet latency on a consumer GPU.
Abstract（参考訳）: 対話型システムのためのフルストリーム音声合成(TTS)は、テキストが漸進的に到着するにつれて制御可能でありながら、最小限の遅延で話し始める必要がある。本稿では,VoXtream2について述べる。VoXtream2はゼロショットのフルストリームTSモデルで,動的発話速度制御をオンザフライで更新できる。 VoXtream2は、制御性および合成品質を改善するために、一定期間における分布マッチング機構と条件付き信号間の分類子なし誘導を組み合わせる。プロンプトテキストマスキングは、テキストなしの音声プロンプトを可能にし、プロンプトの書き起こしを不要にする。標準のゼロショットベンチマークと専用のスピーチレートテストセットを通じて、VoXtream2は、より小さなモデルと少ないトレーニングデータにもかかわらず、パブリックベースラインに対する競争目標と主観的な結果を達成する。フルストリームモードでは、コンシューマGPU上で74msのファーストパッケージレイテンシで、リアルタイムよりも4倍高速で動作する。

関連論文リスト

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input [37.127877690220934]
ストリーミングテキストを受信するストリーミングTSは、インタラクティブシステムにとって不可欠である。しかし、このスキームは2つの大きな課題に直面している。本稿では,弱い時間整合データを用いて事前学習したLLMベースのTSモデルを適応した韻律的境界認識後学習戦略を提案する。
論文参考訳（メタデータ） (2026-03-06T16:36:51Z)
Voxtral Realtime [134.66962524291424]
Voxtral Realtimeはストリーミング自動音声認識モデルである。オフラインの書き込み品質は、秒以下のレイテンシで一致します。私たちはApache 2.0ライセンスの下でモデルウェイトをリリースしています。
論文参考訳（メタデータ） (2026-02-11T19:17:10Z)
VoXtream: Full-Stream Text-to-Speech with Extremely Low Latency [17.067283475630095]
本稿では,VoXtreamについて紹介する。VoXtreamは,最初の単語から始まるリアルタイム使用のための,完全自動回帰・ゼロショットストリーミングテキスト音声合成システムである。 VoXtreamは、モノトニックアライメントスキームと、オンセットを遅らせない動的ルックアヘッドを使用して、入ってくる音素を直接オーディオトークンにマッピングする。インクリメンタルな音素変換器、意味的および持続的トークンを予測する時間変換器、音響トークンを生成する深さ変換器を中心に構築されたVoXtreamは、我々の知る限り、一般に利用可能なストリーミングTSの最低遅延である102msを達成している。
論文参考訳（メタデータ） (2025-09-19T13:26:46Z)
StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文参考訳（メタデータ） (2025-06-14T16:53:39Z)
Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-26T08:25:01Z)
SpeakStream: Streaming Text-to-Speech with Interleaved Data [11.131427505801062]
本稿では,デコーダのみのアーキテクチャを用いて,ストリーミングテキストからインクリメンタルに音声を生成するストリーミングTSシステムであるSpeakStreamを紹介する。推論中、SpeakStreamはストリーミング入力テキストを吸収しながら音声を漸進的に生成する。実験の結果,SpeakStream は非ストリーミング TTS システムの品質を維持しつつ,最先端のレイテンシを実現することができた。
論文参考訳（メタデータ） (2025-05-25T16:11:10Z)
SyncSpeech: Low-Latency and Efficient Dual-Stream Text-to-Speech based on Temporal Masked Transformer [68.78023656892319]
本稿では、ストリーミング音声を同時に生成しながら、上流モデルからストリーミングテキスト入力を受信できる、双方向ストリームテキスト音声(TTS)モデルSyncSpeechを提案する。 SyncSpeechには次のような利点がある: 低レイテンシ、第2のテキストトークンの受信時にストリーミング音声を生成し始めるとき、高効率、そして、受信したテキストトークンに対応するすべての音声トークンを1ステップでデコードするとき、。
論文参考訳（メタデータ） (2025-02-16T12:14:17Z)
ControlSpeech: Towards Simultaneous and Independent Zero-shot Speaker Cloning and Zero-shot Language Style Control [50.27383290553548]
ControlSpeechは、話者の声を完全にクローンし、任意の制御と話し方の調整を可能にするTTS(text-to-speech)システムである。 ControlSpeechは、制御性、音色類似性、音質、堅牢性、一般化性の観点から、同等または最先端(SOTA)性能を示す。
論文参考訳（メタデータ） (2024-06-03T11:15:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。