Fugu-MT 論文翻訳(概要): Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding

論文の概要: Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding

arxiv url: http://arxiv.org/abs/2410.13839v1
Date: Thu, 17 Oct 2024 17:55:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.10211
Title: Accelerating Codec-based Speech Synthesis with Multi-Token Prediction and Speculative Decoding
Title（参考訳）: マルチトークン予測と投機的復号化によるコーデック音声合成の高速化
Authors: Tan Dat Nguyen, Ji-Hoon Kim, Jeongsoo Choi, Shukjae Choi, Jinseok Park, Younglo Lee, Joon Son Chung,
Abstract要約: 本稿では,推論中の速度と品質のトレードオフを,追加のトレーニングを必要とせずに柔軟に行うことができる拡張推論手法を提案する。私たちの中核となる考え方は、複数の予測ヘッドを使用して、ARモジュールの推論ステップ毎に複数のトークンを予測することです。実験では,各トークンの予測に要する時間は,ベースラインモデルと比較して4～5に短縮された。
参考スコア（独自算出の注目度）: 24.472393096460774
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The goal of this paper is to accelerate codec-based speech synthesis systems with minimum sacrifice to speech quality. We propose an enhanced inference method that allows for flexible trade-offs between speed and quality during inference without requiring additional training. Our core idea is to predict multiple tokens per inference step of the AR module using multiple prediction heads, resulting in a linear reduction in synthesis time as the number of heads increases. Furthermore, we introduce a novel speculative decoding technique that utilises a Viterbi-based algorithm to select the optimal sequence of generated tokens at each decoding step. In our experiments, we demonstrate that the time required to predict each token is reduced by a factor of 4 to 5 compared to baseline models, with minimal quality trade-off or even improvement in terms of speech intelligibility. Audio samples are available at: multpletokensprediction.github.io/multipletokensprediction.github.io/.
Abstract（参考訳）: 本研究の目的は,コーデックに基づく音声合成システムの高速化であり,音声品質を最小限に抑えることである。本稿では,推論中の速度と品質のトレードオフを,追加のトレーニングを必要とせずに柔軟に行うことができる拡張推論手法を提案する。我々の中核となる考え方は、複数の予測ヘッドを用いてARモジュールの推論ステップ毎に複数のトークンを予測することである。さらに,各復号ステップで生成したトークンの最適なシーケンスを選択するために,ビタビに基づくアルゴリズムを利用する新しい投機的復号法を提案する。実験では,各トークンの予測に要する時間は,ベースラインモデルに比べて4～5倍に短縮され,品質のトレードオフは最小限に抑えられた。 multpletokensprediction.github.io/multipletokensprediction.github.io/

関連論文リスト

DiffSoundStream: Efficient Speech Tokenization via Diffusion Decoding [12.05169114091718]
DiffSoundStreamは、非ストリーミングシナリオにおける音声トークン化の効率を改善するソリューションである。実験によると、毎秒50トークンのDiffSoundStreamは標準のSoundStreamモデルと同等の音声品質を実現している。
論文参考訳（メタデータ） (2025-06-27T16:23:07Z)
A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation [65.05719674893999]
トークン予測と回帰に基づく2つの戦略について検討し,Schr"odinger Bridgeに基づく新しい手法を提案する。異なるデザイン選択が機械と人間の知覚にどのように影響するかを検討する。
論文参考訳（メタデータ） (2024-10-29T18:29:39Z)
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文参考訳（メタデータ） (2024-06-12T04:09:44Z)
Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文参考訳（メタデータ） (2022-07-20T15:41:47Z)
Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文参考訳（メタデータ） (2022-07-18T03:18:08Z)
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文参考訳（メタデータ） (2022-03-31T15:33:56Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
Fast End-to-End Speech Recognition via a Non-Autoregressive Model and Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文参考訳（メタデータ） (2021-02-15T15:18:59Z)
End-to-End Adversarial Text-to-Speech [33.01223309795122]
正規化されたテキストや音素から音声をエンドツーエンドで合成することを学ぶ。提案するジェネレータはフィードフォワードであり,トレーニングと推論の両方に効率的である。敵対的フィードバックと予測損失を組み合わせた高忠実度オーディオを学習する。
論文参考訳（メタデータ） (2020-06-05T17:41:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。