論文の概要: Robust and Efficient Autoregressive Speech Synthesis with Dynamic Chunk-wise Prediction Policy
- arxiv url: http://arxiv.org/abs/2506.22023v1
- Date: Fri, 27 Jun 2025 08:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.141154
- Title: Robust and Efficient Autoregressive Speech Synthesis with Dynamic Chunk-wise Prediction Policy
- Title(参考訳): 動的チャンクワイズ予測ポリシを用いたロバストかつ効率的な自己回帰音声合成
- Authors: Bohan Li, Zhihan Li, Haoran Wang, Hanglei Zhang, Yiwei Guo, Hankun Wang, Xie Chen, Kai Yu,
- Abstract要約: 本稿では,AR音声生成における効率性とインテリジェンス性を両立させるために,DCARと呼ばれる動的チャンクワイド自己回帰合成フレームワークを提案する。
DCARは従来の次世代予測モデルを大きく上回り、72.27%の知性向上と2.61倍の推論速度を同時に達成した。
- 参考スコア(独自算出の注目度): 20.962236229450454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, autoregressive (AR) language models have emerged as a dominant approach in speech synthesis, offering expressive generation and scalable training. However, conventional AR speech synthesis models relying on the next-token prediction paradigm often encounter significant challenges when handling long speech sequences. These models often struggle to construct stable frame-to-frame attention, leading to increased latency and degraded synthesis quality, thereby limiting their feasibility for real-time applications. To address these limitations, we introduce a novel dynamic chunk-wise autoregressive synthesis framework, termed DCAR, designed to enhance both efficiency and intelligibility robustness in AR speech generation. DCAR introduces a chunk-to-frame attention mechanism through training with multi-token prediction, enabling dynamic chunk prediction in variable speech contexts using a lightweight module trained on-policy. DCAR dynamically adjusts the token prediction span, significantly reducing the sequence length dependency while obtaining high synthesis quality. Comprehensive empirical evaluations demonstrate that DCAR substantially outperforms traditional next-token prediction models, achieving up to 72.27% intelligibility improvement and 2.61x inference speedup simultaneously on the test set. Furthermore, we conduct comprehensive analysis to support it as a versatile foundation for next-generation speech synthesis systems.
- Abstract(参考訳): 近年,自己回帰(AR)言語モデルが音声合成において支配的なアプローチとして登場し,表現的生成とスケーラブルな訓練を提供している。
しかし、従来のAR音声合成モデルは、長文音声列を扱う場合、しばしば重要な課題に遭遇する。
これらのモデルは、しばしば安定したフレーム・ツー・フレームのアテンションを構築するのに苦労し、レイテンシの増加と合成品質の低下を招き、リアルタイムアプリケーションへの実現可能性を制限する。
これらの制約に対処するため,我々は,AR音声生成における効率性と知能性の両方を高めるために,DCARと呼ばれる動的チャンクワイド自己回帰合成フレームワークを導入した。
DCARは、マルチトークン予測によるトレーニングを通じてチャンク・ツー・フレームのアテンション機構を導入し、オンデマンドでトレーニングされた軽量モジュールを使用して、可変音声コンテキストにおける動的チャンク予測を可能にする。
DCARはトークン予測スパンを動的に調整し、高い合成品質を得ながらシーケンス長依存性を著しく低減する。
総合的な実験的な評価により、DCARは従来の次世代予測モデルを大幅に上回り、72.27%のインテリジェンス改善と2.61倍の推論スピードアップをテストセット上で同時に達成している。
さらに,次世代音声合成システムのための汎用基盤として,包括的分析を実施している。
関連論文リスト
- Accelerating Autoregressive Speech Synthesis Inference With Speech Speculative Decoding [21.682444278458433]
Speech Speculative Decoding (SSD) は自己回帰音声合成高速化のための新しいフレームワークである。
SSDは従来の自己回帰デコードに比べて1.4倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-05-21T11:17:04Z) - Generative Pre-trained Autoregressive Diffusion Transformer [54.476056835275415]
GPDiT(GPDiT)は、自動回帰拡散変換器である。
長距離ビデオ合成における拡散と自己回帰モデリングの強みを統一する。
拡散損失を用いて将来の潜伏フレームを自動回帰予測し、運動力学の自然なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-05-12T08:32:39Z) - Fast and High-Quality Auto-Regressive Speech Synthesis via Speculative Decoding [11.128340782271305]
VADUSAは投機的復号化によって自動回帰TTSを高速化する最初のアプローチの一つである。
以上の結果から,VADUSAは推論速度を大幅に向上するだけでなく,将来的な音声コンテンツを自動回帰的に予測するためにドラフトヘッドを組み込むことにより,性能の向上を図っている。
論文 参考訳(メタデータ) (2024-10-29T11:12:01Z) - Efficient Autoregressive Audio Modeling via Next-Scale Prediction [52.663934477127405]
我々は、音声トークン化のトークン長を分析し、新しいtextbfScaleレベルのtextbfAudio textbfTokenizer (SAT) を提案する。
SATをベースとした大規模テキストbfAcoustic textbfAutotextbfRegressive(AAR)モデリングフレームワークが提案されている。
論文 参考訳(メタデータ) (2024-08-16T21:48:53Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Automated and Formal Synthesis of Neural Barrier Certificates for
Dynamical Models [70.70479436076238]
バリア証明書(BC)の自動的,形式的,反例に基づく合成手法を提案する。
このアプローチは、ニューラルネットワークとして構造化されたBCの候補を操作する誘導的フレームワークと、その候補の有効性を認証するか、反例を生成する音検証器によって支えられている。
その結果,音のBCsを最大2桁の速度で合成できることがわかった。
論文 参考訳(メタデータ) (2020-07-07T07:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。