論文の概要: Principled Coarse-Grained Acceptance for Speculative Decoding in Speech
- arxiv url: http://arxiv.org/abs/2511.13732v1
- Date: Wed, 05 Nov 2025 10:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.326867
- Title: Principled Coarse-Grained Acceptance for Speculative Decoding in Speech
- Title(参考訳): 音声における投機的復号化のための原理的粗粒受容
- Authors: Moran Yanuka, Paul Dixon, Eyal Finkelshtein, Daniel Rotman, Raja Giryes,
- Abstract要約: 音響類似度群のレベルで提案を検証した原理的粗粒化(PCG)を導入する。
LibriTTSでは、PCGは標準投機復号法と比較して、受け入れとスループットを向上させる。
- 参考スコア(独自算出の注目度): 26.317854037138762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates autoregressive speech generation by letting a fast draft model propose tokens that a larger target model verifies. However, for speech LLMs that generate acoustic tokens, exact token matching is overly restrictive: many discrete tokens are acoustically or semantically interchangeable, reducing acceptance rates and limiting speedups. We introduce Principled Coarse-Graining (PCG), which verifies proposals at the level of Acoustic Similarity Groups (ASGs) derived from the target model's embedding space. By splitting each token's probability mass across the overlapping groups that contain it, we define an overlap-aware coarse-grained distribution and perform rejection sampling on the resulting group variable. This yields an exactness guarantee at the group level while allowing the accepted draft token to stand in for any member of the group in practice. On LibriTTS, PCG increases acceptance and throughput relative to standard speculative decoding and prior speech-specific relaxations while maintaining intelligibility and speaker similarity. These results suggest acoustically aware, group-level acceptance as a simple and general way to accelerate speech token generation while maintaining speech quality.
- Abstract(参考訳): 投機的復号化は、高速なドラフトモデルにより大きなターゲットモデルが検証するトークンを提案することによって、自己回帰音声生成を加速させる。
しかし、音響トークンを生成する音声LLMでは、正確なトークンマッチングは過度に制限され、多くの離散トークンは音響的にまたは意味的に交換可能であり、受容率を減少させ、スピードアップを制限する。
対象モデルの埋め込み空間から派生した音響類似性グループ(ASG)のレベルで提案を検証した原理的粗粒化(PCG)を導入する。
各トークンの確率質量を、それを含む重なり合うグループに分割することにより、重なり認識された粗粒度分布を定義し、結果の群変数に対する拒絶サンプリングを行う。
これにより、グループレベルでの正確性を保証すると同時に、受け入れられたドラフトトークンが実際にグループのどのメンバにも存在できるようにする。
LibriTTSでは、PCGはインテリジェンス性と話者類似性を維持しつつ、標準投機的復号化や事前の音声特異的緩和に対して、受け入れとスループットを向上させる。
これらの結果は,音声品質を維持しつつ,音声トークン生成を高速化する簡易かつ汎用的な方法として,音響的に認識されたグループレベルの受容を示唆している。
関連論文リスト
- DynaSpec: Context-aware Dynamic Speculative Sampling for Large-Vocabulary Language Models [13.242009624334996]
DynaSpecは動的ショートリスト機構で、堅牢で、ドラフトをスピードアップし、さまざまなタスクにまたがって一般化する。
Llama-3-8Bでは許容される平均長を98.2%まで改善した。
文脈依存の選択を利用することで、DynaSpecは生成トークンの最大2.18倍、固定語彙アプローチの1.91倍を達成する。
論文 参考訳(メタデータ) (2025-10-11T19:38:07Z) - Entropy-based Coarse and Compressed Semantic Speech Representation Learning [72.18542411704347]
圧縮された意味表現を学習するためのエントロピーに基づく動的集約フレームワークを提案する。
ASR、音声からテキストへの変換、音声変換タスクの実験は、圧縮された表現が密度の高いトークンシーケンスと同等以上のパフォーマンスを示すことを示した。
論文 参考訳(メタデータ) (2025-08-30T13:50:58Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Guided Variational Autoencoder for Speech Enhancement With a Supervised
Classifier [20.28217079480463]
本研究では,雑音音声を別々に訓練した教師付き分類器を用いて,可変オートエンコーダの導出を提案する。
推定ラベルは、音声信号を記述する高レベルなカテゴリー変数である。
本手法は,騒音環境の異なる実記録において,異なる種類のラベルを用いて評価する。
論文 参考訳(メタデータ) (2021-02-12T11:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。