論文の概要: Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS
- arxiv url: http://arxiv.org/abs/2605.30748v2
- Date: Mon, 01 Jun 2026 01:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 00:57:58.891637
- Title: Chatterbox-Flash: Prior-Calibrated Block Diffusion for Streaming Zero-Shot TTS
- Title(参考訳): Chatterbox-Flash: ゼロショットTSストリーミングのためのプリキャリブレーションブロック拡散
- Authors: Deokjin Seo, Gangin Park, Kihyun Nam,
- Abstract要約: 本稿では,事前学習した自己回帰型TSデコーダをブロック拡散デコーダに微調整したゼロショット音声合成モデルChatterbox-Flashを提案する。
主観的ブロック拡散復号を離散音声トークンにネーティブに転送することは品質を劣化させる。
本稿では,ブロックレベルの限界トークン分布を減算する事前校正スコアと,校正された信頼度に基づいて反復を適応的に終了する早期復号スケジュールの2つの推論時間手法を紹介する。
- 参考スコア(独自算出の注目度): 2.6809014985508584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Chatterbox-Flash, a zero-shot text-to-speech model obtained by fine-tuning a pretrained autoregressive TTS decoder into a block-diffusion decoder, enabling parallel token generation within each block while retaining block-by-block streaming. We find that naively transferring mainstream block-diffusion decoding to discrete speech tokens degrades quality, as a long-tail token distribution biases parallel position selection toward a few high-frequency tokens. To mitigate this without architectural modification, we introduce two inference-time techniques: prior-calibrated scoring, which subtracts the block-level marginal token distribution, and an early-decoding schedule, which adaptively terminates iteration based on calibrated confidence. On standard zero-shot TTS benchmarks, Chatterbox-Flash attains high-fidelity synthesis comparable to strong autoregressive and non-autoregressive baselines, while supporting streaming inference with time-to-first-packet on par with streaming AR systems and substantially lower real-time factor. Code and audio samples are available at https://github.com/resemble-ai/chatterbox-flash.
- Abstract(参考訳): 本稿では,事前学習した自己回帰型TSデコーダをブロック拡散デコーダに微調整し,ブロックごとのストリーミングを維持しながらブロック内の並列トークン生成を可能にするゼロショットテキスト音声合成モデルChatterbox-Flashを提案する。
離散音声トークンへの主流ブロック拡散復号化は、長いテールトークン分布がいくつかの高周波トークンに対して並列位置選択に偏りがあるため、品質を劣化させる。
アーキテクチャ変更を伴わずにこれを緩和するために,ブロックレベルの限界トークン分布を減算する事前校正スコアと,校正された信頼度に基づいて反復を適応的に終了する早期復号スケジュールの2つの推論時間手法を導入する。
標準のゼロショットTSベンチマークでは、Chatterbox-Flashは、強力な自己回帰的および非自己回帰的ベースラインに匹敵する高忠実な合成を実現している。
コードとオーディオサンプルはhttps://github.com/resemble-ai/chatterbox-flash.comで公開されている。
関連論文リスト
- Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models [56.91801348360746]
大規模な音声言語モデル(LALM)は、音声、音声、音楽にまたがって一般化される。
統一デコーダは 時空間のスムーズなバイアスを示します
LALMの学習自由復号法であるemphTemporal Contrastive Decoding (TCD)を提案する。
論文 参考訳(メタデータ) (2026-04-16T02:30:41Z) - DiSTAR: Diffusion over a Scalable Token Autoregressive Representation for Speech Generation [30.150846119894577]
DISTARはゼロショットのテキスト音声合成フレームワークで、離散的残差ベクトル量子化符号空間で完全に動作する。
DISTARは、堅牢性、自然性、話者/スタイルの整合性において、最先端のゼロショットTSシステムを超えている。
論文 参考訳(メタデータ) (2025-10-14T07:03:29Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net
Encoder With Multiple STFTs [1.8047694351309207]
FastFitは、U-Netエンコーダを複数の短時間フーリエ変換(STFT)に置き換える新しいニューラルボコーダアーキテクチャである。
我々は,FastFitが高音質を維持しつつ,ベースラインベースボコーダの生成速度を約2倍に向上することを示す。
論文 参考訳(メタデータ) (2023-05-18T09:05:17Z) - Streaming Align-Refine for Non-autoregressive Deliberation [42.748839817396046]
本稿では,ストリーミングRNN-Tモデルの仮説アライメントを意図した非自己回帰的(非AR)デコーディングアルゴリズムを提案する。
提案アルゴリズムは,単純なグリーディ復号処理を容易にし,同時に各フレームにおける復号結果を,限られた適切なコンテキストで生成することができる。
音声検索データセットとLibrispeechの実験は、合理的な適切なコンテキストで、ストリーミングモデルがオフラインと同等に動作していることを示しています。
論文 参考訳(メタデータ) (2022-04-15T17:24:39Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。