論文の概要: Accelerating Autoregressive Speech Synthesis Inference With Speech Speculative Decoding
- arxiv url: http://arxiv.org/abs/2505.15380v2
- Date: Tue, 03 Jun 2025 03:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.600868
- Title: Accelerating Autoregressive Speech Synthesis Inference With Speech Speculative Decoding
- Title(参考訳): 音声投機復号による自己回帰音声合成の高速化
- Authors: Zijian Lin, Yang Zhang, Yougen Yuan, Yuming Yan, Jinjiang Liu, Zhiyong Wu, Pengfei Hu, Qun Yu,
- Abstract要約: Speech Speculative Decoding (SSD) は自己回帰音声合成高速化のための新しいフレームワークである。
SSDは従来の自己回帰デコードに比べて1.4倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 21.682444278458433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern autoregressive speech synthesis models leveraging language models have demonstrated remarkable performance. However, the sequential nature of next token prediction in these models leads to significant latency, hindering their deployment in scenarios where inference speed is critical. In this work, we propose Speech Speculative Decoding (SSD), a novel framework for autoregressive speech synthesis acceleration. Specifically, our method employs a lightweight draft model to generate candidate token sequences, which are subsequently verified in parallel by the target model using the proposed SSD framework. Experimental results demonstrate that SSD achieves a significant speedup of 1.4x compared with conventional autoregressive decoding, while maintaining high fidelity and naturalness. Subjective evaluations further validate the effectiveness of SSD in preserving the perceptual quality of the target model while accelerating inference.
- Abstract(参考訳): 言語モデルを利用した現代の自己回帰音声合成モデルは顕著な性能を示した。
しかしながら、これらのモデルにおける次のトークン予測のシーケンシャルな性質は、推論速度が重要なシナリオへのデプロイメントを妨げる、大きな遅延を引き起こす。
本研究では,自己回帰音声合成促進のための新しいフレームワークである音声投機的デコーディング(SSD)を提案する。
具体的には、軽量なドラフトモデルを用いて候補トークン列を生成し、その後、提案したSSDフレームワークを用いてターゲットモデルによって並列に検証する。
実験の結果,SSDは従来の自己回帰復号法に比べて1.4倍の高速化を実現し,高い忠実度と自然性を維持した。
主観評価は、推論を加速しながら目標モデルの知覚的品質を維持する上で、SSDの有効性をさらに検証する。
関連論文リスト
- READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - Robust and Efficient Autoregressive Speech Synthesis with Dynamic Chunk-wise Prediction Policy [20.962236229450454]
本稿では,AR音声生成における効率性とインテリジェンス性を両立させるために,DCARと呼ばれる動的チャンクワイド自己回帰合成フレームワークを提案する。
DCARは従来の次世代予測モデルを大きく上回り、72.27%の知性向上と2.61倍の推論速度を同時に達成した。
論文 参考訳(メタデータ) (2025-06-27T08:45:21Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。
音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文 参考訳(メタデータ) (2025-06-04T23:53:49Z) - Consultant Decoding: Yet Another Synergistic Mechanism [49.996656694586164]
コンサルタント・デコーディング(CD)は、大きな言語モデルでのみ計算されるトークンレベルの確率を用いて、候補のドラフトを検証する。
CDは、目標モデルと比較して2.5倍の推論速度向上を実現し、同等の生成品質を維持している。
論文 参考訳(メタデータ) (2025-06-03T03:13:27Z) - Fast and High-Quality Auto-Regressive Speech Synthesis via Speculative Decoding [11.128340782271305]
VADUSAは投機的復号化によって自動回帰TTSを高速化する最初のアプローチの一つである。
以上の結果から,VADUSAは推論速度を大幅に向上するだけでなく,将来的な音声コンテンツを自動回帰的に予測するためにドラフトヘッドを組み込むことにより,性能の向上を図っている。
論文 参考訳(メタデータ) (2024-10-29T11:12:01Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - PRoDeliberation: Parallel Robust Deliberation for End-to-End Spoken Language Understanding [44.77985942208969]
PRoDeliberationは、コネクショニストの時間分類に基づくデコード戦略を活用する新しい手法であり、堅牢な非自己回帰的デリベレーションモデルをトレーニングするための認知的目標である。
PRoDeliberationは,自動音声認識(ASR)の誤り書き起こしを補正する能力を維持しつつ,並列デコーディングの遅延低減(自己回帰モデルよりも2~10倍改善)を実現していることを示す。
論文 参考訳(メタデータ) (2024-06-12T02:46:17Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z) - Fast and Robust Early-Exiting Framework for Autoregressive Language
Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。
我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。
並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文 参考訳(メタデータ) (2023-10-09T05:53:05Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。
連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。
本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-11T15:11:54Z) - STYLER: Style Modeling with Rapidity and Robustness via
SpeechDecomposition for Expressive and Controllable Neural Text to Speech [2.622482339911829]
STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。
提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
論文 参考訳(メタデータ) (2021-03-17T07:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。