論文の概要: DiSTAR: Diffusion over a Scalable Token Autoregressive Representation for Speech Generation
- arxiv url: http://arxiv.org/abs/2510.12210v1
- Date: Tue, 14 Oct 2025 07:03:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.217495
- Title: DiSTAR: Diffusion over a Scalable Token Autoregressive Representation for Speech Generation
- Title(参考訳): DiSTAR:音声生成のためのスケーラブルなトークン自己回帰表現上の拡散
- Authors: Yakun Song, Xiaobin Zhuang, Jiawei Chen, Zhikang Niu, Guanrou Yang, Chenpeng Du, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen,
- Abstract要約: DISTARはゼロショットのテキスト音声合成フレームワークで、離散的残差ベクトル量子化符号空間で完全に動作する。
DISTARは、堅牢性、自然性、話者/スタイルの整合性において、最先端のゼロショットTSシステムを超えている。
- 参考スコア(独自算出の注目度): 30.633734797563474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent attempts to interleave autoregressive (AR) sketchers with diffusion-based refiners over continuous speech representations have shown promise, but they remain brittle under distribution shift and offer limited levers for controllability. We introduce DISTAR, a zero-shot text-to-speech framework that operates entirely in a discrete residual vector quantization (RVQ) code space and tightly couples an AR language model with a masked diffusion model, without forced alignment or a duration predictor. Concretely, DISTAR drafts block-level RVQ tokens with an AR language model and then performs parallel masked-diffusion infilling conditioned on the draft to complete the next block, yielding long-form synthesis with blockwise parallelism while mitigating classic AR exposure bias. The discrete code space affords explicit control at inference: DISTAR produces high-quality audio under both greedy and sample-based decoding using classifier-free guidance, supports trade-offs between robustness and diversity, and enables variable bit-rate and controllable computation via RVQ layer pruning at test time. Extensive experiments and ablations demonstrate that DISTAR surpasses state-of-the-art zero-shot TTS systems in robustness, naturalness, and speaker/style consistency, while maintaining rich output diversity. Audio samples are provided on https://anonymous.4open.science/w/DiSTAR_demo.
- Abstract(参考訳): 近年, 自己回帰的(AR)スケッチラと拡散型精細化器を連続した音声表現にインターリーブしようとする試みは, 将来性を示しているが, 分散シフト下では不安定であり, 制御性に限界がある。
DISTARは,離散残差ベクトル量子化(RVQ)符号空間で完全に動作するゼロショットテキスト音声合成フレームワークで,強制アライメントや持続時間予測を伴わずに,マスク付き拡散モデルとAR言語モデルを密結合する。
具体的には、DISTARはブロックレベルのRVQトークンをAR言語モデルでドラフトし、次に次のブロックを完了するためにドラフトに条件付きパラレルマスク付き拡散注入を実行する。
DISTARは、クラシファイアフリーガイダンスを使用して、グレードとサンプルベースのデコードの両方で高品質なオーディオを生成し、ロバスト性と多様性のトレードオフをサポートし、テスト時にRVQ層プルーニングによる可変ビットレートと制御可能な計算を可能にする。
大規模な実験と改善により、DISTARは出力の多様性を豊かに保ちながら、堅牢性、自然性、話者/スタイルの整合性において最先端のゼロショットTSシステムを上回ることを示した。
オーディオサンプルはhttps://anonymous.4open.science/w/DiSTAR_demoで提供されている。
関連論文リスト
- Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling [87.34677262370924]
標準離散拡散モデルは、吸収[MASK]トークンにそれらをマッピングすることで、すべての観測されていない状態を同一に扱う。
これは'インフォメーション・ヴォイド'を生成します。そこでは、偽のトークンから推測できるセマンティック情報は、デノイングステップの間に失われます。
連続的拡張離散拡散(Continuously Augmented Discrete Diffusion)は、連続的な潜在空間における対拡散で離散状態空間を拡大するフレームワークである。
論文 参考訳(メタデータ) (2025-10-01T18:00:56Z) - DiFlow-TTS: Discrete Flow Matching with Factorized Speech Tokens for Low-Latency Zero-Shot Text-To-Speech [8.537791317883576]
Zero-shot Text-to-Speech (TTS) は、短い参照サンプルのみを用いて、目に見えない話者の声を模倣する高品質な音声を合成することを目的としている。
言語モデル,拡散,フローマッチングに基づく最近のアプローチは,ゼロショットTSにおいて有望な結果を示しているが,それでも遅い推論と繰り返しアーティファクトに悩まされている。
音声合成のための純粋離散フローマッチングを探索する最初のモデルであるDiFlow-TTSを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:16:52Z) - Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding [60.06816407728172]
離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
論文 参考訳(メタデータ) (2025-08-27T02:49:33Z) - Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。