論文の概要: Next Tokens Denoising for Speech Synthesis
- arxiv url: http://arxiv.org/abs/2507.22746v2
- Date: Fri, 01 Aug 2025 03:37:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 12:04:25.422065
- Title: Next Tokens Denoising for Speech Synthesis
- Title(参考訳): 音声合成のための次のTokens Denoising
- Authors: Yanqing Liu, Ruiqing Xue, Chong Zhang, Yufei Liu, Gang Wang, Bohan Li, Yao Qian, Lei He, Shujie Liu, Sheng Zhao,
- Abstract要約: Dragon-FMは、ARとフローマッチングを統合する新しいテキスト音声(TTS)設計である。
毎秒12.5トークンのコンパクトレートで48kHzのオーディオトークンをチャンクで処理する。
ポッドキャストデータセットの実験では、高品質なゼロショットポッドキャストを効率的に生成できることが示されている。
- 参考スコア(独自算出の注目度): 51.320443764269726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While diffusion and autoregressive (AR) models have significantly advanced generative modeling, they each present distinct limitations. AR models, which rely on causal attention, cannot exploit future context and suffer from slow generation speeds. Conversely, diffusion models struggle with key-value (KV) caching. To overcome these challenges, we introduce Dragon-FM, a novel text-to-speech (TTS) design that unifies AR and flow-matching. This model processes 48 kHz audio codec tokens in chunks at a compact rate of 12.5 tokens per second. This design enables AR modeling across chunks, ensuring global coherence, while parallel flow-matching within chunks facilitates fast iterative denoising. Thus, the model leverages KV-cache across chunks and utilizes bidirectional context within each chunk. Furthermore, it bridges continuous and discrete feature modeling, demonstrating that continuous AR flow-matching can predict discrete tokens with finite scalar quantizers. This efficient codec and fast chunk-autoregressive architecture also make the model highly effective for generating long-form content, such as podcasts. Experiments on podcast datasets demonstrate its capability to efficiently generate high-quality zero-shot podcasts.
- Abstract(参考訳): 拡散と自己回帰(AR)モデルは、かなり高度な生成モデルを持つが、それぞれに明確な限界がある。
因果的注意を頼りにしているARモデルは、将来の状況を利用することができず、発生速度が遅い。
逆に拡散モデルはキー値(KV)キャッシングに苦しむ。
これらの課題を克服するために、ARとフローマッチングを統合する新しいテキスト音声(TTS)設計であるDragon-FMを導入する。
このモデルは48kHzのオーディオコーデックトークンを、毎秒12.5トークンのコンパクトレートでチャンクで処理する。
この設計はチャンク間のARモデリングを可能にし、グローバルコヒーレンスを保証する一方で、チャンク内の並列フローマッチングは高速な反復的デノーミングを促進する。
したがって、モデルはチャンク全体のKV-cacheを活用し、チャンク内の双方向コンテキストを利用する。
さらに、連続的かつ離散的な特徴モデリングをブリッジし、連続的なARフローマッチングが有限スカラー量子化器で離散トークンを予測できることを実証する。
この効率的なコーデックと高速なチャンク自動回帰アーキテクチャは、ポッドキャストのような長文コンテンツを生成するのに非常に効果的である。
ポッドキャストデータセットの実験では、高品質なゼロショットポッドキャストを効率的に生成できることが示されている。
関連論文リスト
- Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [16.99620863197586]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
拡散言語モデルが初めて、広く採用されている自己回帰モデルと同等かつ高速なレイテンシを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。
PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。
実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-14T16:03:21Z) - DiCoDe: Diffusion-Compressed Deep Tokens for Autoregressive Video Generation with Language Models [72.24305287508474]
自動回帰方式で言語モデルでビデオを生成する新しいアプローチであるDiCoDeを紹介する。
ビデオを時間的シーケンスとして扱うことで、DiCoDeは自動回帰生成のための言語モデルの能力を完全に活用する。
我々は,DiCoDeを定量的かつ質的に評価し,既存の手法と品質の両立性を実証した。
論文 参考訳(メタデータ) (2024-12-05T18:57:06Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。
LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文 参考訳(メタデータ) (2024-10-04T12:21:03Z) - Efficient Autoregressive Audio Modeling via Next-Scale Prediction [52.663934477127405]
我々は、音声トークン化のトークン長を分析し、新しいtextbfScaleレベルのtextbfAudio textbfTokenizer (SAT) を提案する。
SATをベースとした大規模テキストbfAcoustic textbfAutotextbfRegressive(AAR)モデリングフレームワークが提案されている。
論文 参考訳(メタデータ) (2024-08-16T21:48:53Z) - Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。
高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文 参考訳(メタデータ) (2024-06-08T18:57:13Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Hierarchical Attention Encoder Decoder [2.4366811507669115]
自己回帰モデリングは、多くの実世界の応用を持つ複雑で斬新なシーケンスを生成することができる。
これらのモデルはアウトプットを自動回帰的に生成しなければなりません。
階層型リカレントデコーダアーキテクチャに基づくモデルを提案する。
論文 参考訳(メタデータ) (2023-06-01T18:17:23Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。