論文の概要: Next Tokens Denoising for Speech Synthesis
- arxiv url: http://arxiv.org/abs/2507.22746v1
- Date: Wed, 30 Jul 2025 15:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.273626
- Title: Next Tokens Denoising for Speech Synthesis
- Title(参考訳): 音声合成のための次のTokens Denoising
- Authors: Yanqing Liu, Ruiqing Xue, Chong Zhang, Yufei Liu, Gang Wang, Bohan Li, Yao Qian, Lei He, Shujie Liu, Sheng Zhao,
- Abstract要約: Dragon-FMは、ARとフローマッチングを統合する新しいテキスト音声(TTS)設計である。
48kHzのオーディオトークンを、毎秒12.5のコンパクトなトークンでチャンクで処理する。
- 参考スコア(独自算出の注目度): 51.320443764269726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While diffusion and autoregressive (AR) models have significantly advanced generative modeling, they each present distinct limitations. AR models, which rely on causal attention, cannot exploit future context and suffer from slow generation speeds. Conversely, diffusion models struggle with key-value (KV) caching. To overcome these challenges, we introduce Dragon-FM, a novel text-to-speech (TTS) design that unifies AR and flow-matching. This model processes 48 kHz audio codec tokens in chunks at a compact 12.5 tokens per second rate. This design enables AR modeling across chunks, ensuring global coherence, while parallel flow-matching within chunks facilitates fast iterative denoising. Consequently, the proposed model can utilize KV-cache across chunks and incorporate future context within each chunk. Furthermore, it bridges continuous and discrete feature modeling, demonstrating that continuous AR flow-matching can predict discrete tokens with finite scalar quantizers. This efficient codec and fast chunk-autoregressive architecture also makes the proposed model particularly effective for generating extended content. Experiment for demos of our work} on podcast datasets demonstrate its capability to efficiently generate high-quality zero-shot podcasts.
- Abstract(参考訳): 拡散と自己回帰(AR)モデルは、かなり高度な生成モデルを持つが、それぞれに明確な限界がある。
因果的注意を頼りにしているARモデルは、将来の状況を利用することができず、発生速度が遅い。
逆に拡散モデルはキー値(KV)キャッシングに苦しむ。
これらの課題を克服するために、ARとフローマッチングを統合する新しいテキスト音声(TTS)設計であるDragon-FMを導入する。
このモデルは48kHzのオーディオコーデックトークンを、毎秒12.5トークンのコンパクトなチャンクで処理する。
この設計はチャンク間のARモデリングを可能にし、グローバルコヒーレンスを保証する一方で、チャンク内の並列フローマッチングは高速な反復的デノーミングを促進する。
その結果,提案モデルでは,チャンク全体でKV-cacheを利用でき,各チャンクに将来的なコンテキストを組み込むことができる。
さらに、連続的かつ離散的な特徴モデリングをブリッジし、連続的なARフローマッチングが有限スカラー量子化器で離散トークンを予測できることを実証する。
この効率的なコーデックと高速なチャンク自動回帰アーキテクチャにより、提案したモデルは特に拡張コンテンツを生成するのに効果的である。
ポッドキャストデータセットのデモ実験は、高品質なゼロショットポッドキャストを効率的に生成する能力を実証している。
関連論文リスト
- Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Efficient Autoregressive Audio Modeling via Next-Scale Prediction [52.663934477127405]
我々は、音声トークン化のトークン長を分析し、新しいtextbfScaleレベルのtextbfAudio textbfTokenizer (SAT) を提案する。
SATをベースとした大規模テキストbfAcoustic textbfAutotextbfRegressive(AAR)モデリングフレームワークが提案されている。
論文 参考訳(メタデータ) (2024-08-16T21:48:53Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。