論文の概要: VocalNet-MDM: Accelerating Streaming Speech LLM via Self-Distilled Masked Diffusion Modeling
- arxiv url: http://arxiv.org/abs/2602.08607v1
- Date: Mon, 09 Feb 2026 12:52:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.232404
- Title: VocalNet-MDM: Accelerating Streaming Speech LLM via Self-Distilled Masked Diffusion Modeling
- Title(参考訳): VocalNet-MDM:自己拡散型マスド拡散モデルによるストリーミング音声LLMの高速化
- Authors: Ziyang Cheng, Yuhao Wang, Heyang Liu, Ronghua Wu, Qunshan Gu, Yanfeng Wang, Yu Wang,
- Abstract要約: Masked Diffusion Modeling(MDM)は、音声認識のための非自己回帰パラダイムである。
VocalNet-MDMは、限られた6K時間の音声データで訓練されている。
最先端のテキスト品質と音声の自然性を達成しつつ、競争力のある認識精度を維持する。
- 参考スコア(独自算出の注目度): 31.58493743596625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Speech Large Language Models~(LLMs) have achieved impressive capabilities in end-to-end speech interaction. However, the prevailing autoregressive paradigm imposes strict serial constraints, limiting generation efficiency and introducing exposure bias. In this paper, we investigate Masked Diffusion Modeling~(MDM) as a non-autoregressive paradigm for speech LLMs and introduce VocalNet-MDM. To adapt MDM for streaming speech interaction, we address two critical challenges: training-inference mismatch and iterative overhead. We propose Hierarchical Block-wise Masking to align training objectives with the progressive masked states encountered during block diffusion decoding, and Iterative Self-Distillation to compress multi-step refinement into fewer steps for low-latency inference. Trained on a limited scale of only 6K hours of speech data, VocalNet-MDM achieves a 3.7$\times$--10$\times$ decoding speedup and reduces first-chunk latency by 34\% compared to AR baselines. It maintains competitive recognition accuracy while achieving state-of-the-art text quality and speech naturalness, demonstrating that MDM is a promising and scalable alternative for low-latency, efficient speech LLMs.
- Abstract(参考訳): 最近の音声大言語モデル~(LLM)は、エンドツーエンドの音声対話において印象的な機能を実現している。
しかし、一般的な自己回帰パラダイムは、厳密なシリアル制約を課し、生成効率を制限し、露出バイアスを導入する。
本稿では,音声LPMの非自己回帰パラダイムであるMasked Diffusion Modeling~(MDM)について検討し,VocalNet-MDMを紹介する。
ストリーミング音声インタラクションにMDMを適用するために,トレーニング-推論ミスマッチと反復的オーバーヘッドの2つの重要な課題に対処する。
ブロック拡散復号時に発生するプログレッシブマスク状態とトレーニング目標を整合させる階層的ブロックワイドマスキングと,低遅延推論のための少ないステップに圧縮する反復自己蒸留を提案する。
VocalNet-MDMは、わずか6K時間の音声データの限られたスケールで訓練され、3.7$\times$--10$\times$デコードスピードアップを実現し、ARベースラインと比較してファーストチャンクのレイテンシを34\%削減する。
最先端のテキスト品質と音声の自然性を達成しつつ、競争力のある音声認識精度を維持し、MDMが低レイテンシで効率的なLLMに対する有望でスケーラブルな代替手段であることを実証している。
関連論文リスト
- Streaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding [36.74241893088594]
拡散大言語モデル(dLLM)は、自然言語生成に魅力的なパラダイムを提供する。
最近の研究はKVキャッシュの再利用や復号化を通じて推論を加速しているが、ブロックワイド拡散プロセスにおける本質的な非効率性を見落としている。
本稿では,空間次元と時間次元の両方にわたって推論を合理化する学習自由フレームワークStreaming-dLLMを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:36:04Z) - AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation [60.02195766025208]
我々は、専門家のデコーダを使わずに、自己回帰パラダイムにおける統一された任意のモデルであるAR-Omniを提案する。
AR-Omniは自動回帰テキストと画像生成をサポートし、ストリーミング音声生成もサポートしている。
タスク認識損失再重み付けによるモダリティ不均衡、画像トークンに対する軽量トークンレベルの知覚的アライメント損失による視覚的忠実度、有限状態復号機構による安定性・創造性トレードオフの3つの実践的問題に対処する。
論文 参考訳(メタデータ) (2026-01-25T09:17:36Z) - MDiff4STR: Mask Diffusion Model for Scene Text Recognition [59.79818820650126]
Mask Diffusion Models (MDM) は、視覚言語タスクのための自動回帰モデル (ARM) に代わる有望な代替品として登場した。
我々は,認識効率は向上するが,バニラMDMがARMに遅れていることを示す。
シーンテキスト認識に適した2つの重要な改善戦略を備えたマスク拡散モデルMDiff4STRを提案する。
論文 参考訳(メタデータ) (2025-12-01T08:57:51Z) - VocalNet-M2: Advancing Low-Latency Spoken Language Modeling via Integrated Multi-Codebook Tokenization and Multi-Token Prediction [31.58493743596625]
VocalNet-M2は、マルチコードブックトークンライザとマルチトークン予測戦略を統合した、新しい低レイテンシSLMである。
提案モデルでは,マルチコードブック音声トークンを直接生成することで,遅延発生型フローマッチングモデルの必要性を解消する。
論文 参考訳(メタデータ) (2025-11-13T12:06:05Z) - Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - Esoteric Language Models [31.619674001793875]
我々は,ARとMDMのパラダイムを融合した新しいモデルのファミリーであるEso-LMを紹介する。
Eso-LMは、標準言語モデリングベンチマークに新しい状態を設定した。
我々は、並列生成を保持しながら、DMs*のKVキャッシュを導入する**です。
論文 参考訳(メタデータ) (2025-06-02T17:47:27Z) - Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding [53.82301522384719]
Dimple, the first Discrete Multimodal Large Language Model (DMLLM)を提案する。
我々は,初期自己回帰フェーズとその後の拡散フェーズを組み合わせた新しい訓練パラダイムを設計する。
Dimple-7BはLLaVA-を3.9%上回り、DMLLMは自己回帰モデルに匹敵する性能を達成できることを示した。
論文 参考訳(メタデータ) (2025-05-22T17:55:04Z) - Unified Auto-Encoding with Masked Diffusion [15.264296748357157]
我々はUMD(Unified Masked Diffusion)と呼ばれる,統合された自己監督的目標を提案する。
UMDは、パッチベースとノイズベースの破損テクニックを1つの自動エンコーディングフレームワークに組み合わせている。
下流の生成および表現学習タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-25T16:24:34Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。