論文の概要: VocalNet-M2: Advancing Low-Latency Spoken Language Modeling via Integrated Multi-Codebook Tokenization and Multi-Token Prediction
- arxiv url: http://arxiv.org/abs/2511.10232v1
- Date: Fri, 14 Nov 2025 01:40:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.758476
- Title: VocalNet-M2: Advancing Low-Latency Spoken Language Modeling via Integrated Multi-Codebook Tokenization and Multi-Token Prediction
- Title(参考訳): VocalNet-M2: 統合マルチコードトークン化とマルチトークン予測による低レイテンシ音声言語モデリングの改善
- Authors: Yuhao Wang, Ziyang Cheng, Heyang Liu, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang,
- Abstract要約: VocalNet-M2は、マルチコードブックトークンライザとマルチトークン予測戦略を統合した、新しい低レイテンシSLMである。
提案モデルでは,マルチコードブック音声トークンを直接生成することで,遅延発生型フローマッチングモデルの必要性を解消する。
- 参考スコア(独自算出の注目度): 31.58493743596625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current end-to-end spoken language models (SLMs) have made notable progress, yet they still encounter considerable response latency. This delay primarily arises from the autoregressive generation of speech tokens and the reliance on complex flow-matching models for speech synthesis. To overcome this, we introduce VocalNet-M2, a novel low-latency SLM that integrates a multi-codebook tokenizer and a multi-token prediction (MTP) strategy. Our model directly generates multi-codebook speech tokens, thus eliminating the need for a latency-inducing flow-matching model. Furthermore, our MTP strategy enhances generation efficiency and improves overall performance. Extensive experiments demonstrate that VocalNet-M2 achieves a substantial reduction in first chunk latency (from approximately 725ms to 350ms) while maintaining competitive performance across mainstream SLMs. This work also provides a comprehensive comparison of single-codebook and multi-codebook strategies, offering valuable insights for developing efficient and high-performance SLMs for real-time interactive applications.
- Abstract(参考訳): 現在のエンドツーエンドの言語モデル(SLM)は目覚ましい進歩を遂げているが、それでも相当な応答遅延に遭遇している。
この遅延は主に、自己回帰的な音声トークンの生成と、音声合成のための複雑なフローマッチングモデルに依存することから生じる。
この問題を解決するために,VocalNet-M2は,マルチコードブックトークン化とマルチトークン予測(MTP)戦略を統合した,新しい低レイテンシSLMである。
提案モデルでは,マルチコードブック音声トークンを直接生成することで,遅延発生型フローマッチングモデルの必要性を解消する。
さらに,MPP戦略により生成効率が向上し,全体的な性能が向上する。
大規模な実験により、VocalNet-M2は、主要なSLM間での競合性能を維持しながら、最初のチャンクレイテンシ(約725msから350ms)を大幅に削減した。
この研究はまた、シングルコードブックとマルチコードブックの戦略を総合的に比較し、リアルタイムインタラクティブアプリケーションのための効率的で高性能なSLMを開発するための貴重な洞察を提供する。
関連論文リスト
- L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [95.53699156138435]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。
従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文 参考訳(メタデータ) (2025-05-23T05:59:46Z) - VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation [26.34810950257782]
音声大言語モデル(LLM)は、音声処理に顕著な焦点をあてている。
本稿では,スケーラブルでモデルに依存しない学習フレームワークによって実現された,高性能で低レイテンシなLLMであるVocalNet-1BとVocalNet-8Bを紹介する。
我々の貢献の中心は、LLMに対するMTP(Multi-token Prediction)の最初の応用である。
論文 参考訳(メタデータ) (2025-04-05T04:57:12Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - PaDeLLM-NER: Parallel Decoding in Large Language Models for Named Entity Recognition [15.204703947024242]
PaDeLLM-NERはすべての参照の同時復号化を可能にし、生成遅延を低減させる。
実験の結果、PaDeLLM-NERは英語と中国語の自己回帰手法の1.76倍から10.22倍の推論速度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-07T13:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。