論文の概要: SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models
- arxiv url: http://arxiv.org/abs/2603.09215v1
- Date: Tue, 10 Mar 2026 05:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.060135
- Title: SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models
- Title(参考訳): SPAR-K:音声言語モデルの周期交代早期終了をスケジューリングする
- Authors: Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi Lee,
- Abstract要約: インターリーブ音声言語モデル(SLM)はテキストと音声トークンを交互に生成するが、ステップ毎にフルトランスフォーマー深さでの復号はコストがかかる。
SPAR-Kは、知覚品質を維持しつつ、インターリーブされたSLM推論を高速化するために設計されたモダリティ対応早期終了フレームワークである。
我々は,4つのデータセットにまたがるステップAudio-2-mini と GLM-4-Voice を用いて,推論,事実QA,対話タスクを対象とするフレームワークの評価を行った。
- 参考スコア(独自算出の注目度): 56.525932945429275
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Interleaved spoken language models (SLMs) alternately generate text and speech tokens, but decoding at full transformer depth for every step becomes costly, especially due to long speech sequences. We propose SPAR-K, a modality-aware early exit framework designed to accelerate interleaved SLM inference while preserving perceptual quality. SPAR-K introduces a speech alternating-depth schedule: most speech positions exit at a fixed intermediate layer, while periodic full-depth "refresh" steps mitigate distribution shift due to early exit. We evaluate our framework using Step-Audio-2-mini and GLM-4-Voice across four datasets spanning reasoning, factual QA, and dialogue tasks, measuring performance in terms of ASR transcription accuracy and perceptual quality. Experimental results demonstrate that SPAR-K largely preserves question-answering accuracy with a maximum accuracy drop of 0.82\% while reducing average speech decoding depth by up to 11\% on Step-Audio-2-mini and 5\% on GLM-4-Voice, both with negligible changes in MOS and WER and no auxiliary computation overhead. We further demonstrate that confidence-based early exit strategies, widely used in text LLMs, are suboptimal for SLMs, highlighting that the unique statistical nature of speech tokens necessitates a specialized early exit design.
- Abstract(参考訳): インターリーブ音声言語モデル(SLM)は、テキストと音声トークンを交互に生成するが、各ステップのフルトランスフォーマー深さでの復号は、特に長い音声シーケンスのためにコストがかかる。
SPAR-Kは、知覚品質を維持しつつ、インターリーブされたSLM推論を高速化するために設計されたモダリティ対応早期終了フレームワークである。
SPAR-Kは、ほとんどの音声が固定された中間層で終了するのに対し、周期的な全深度「更新」ステップは、早期終了による分散シフトを緩和する。
我々は,ASR転写精度と知覚品質の観点から,推論,事実QA,対話タスクにまたがる4つのデータセットにまたがるステップAudio-2-miniとGLM-4-Voiceを用いて,我々のフレームワークを評価する。
実験結果から,SPAR-Kは平均音声復号深度をステップオーディオ-2-miniで最大11倍,GLM-4-Voiceで最大5倍まで低減し,MOSとWERの無視的変化と補助的計算オーバーヘッドを伴わず,問合せ精度を最大0.82倍に抑えることがわかった。
さらに,テキスト LLM で広く使用されている信頼に基づく早期終了戦略が SLM に最適であることを示すとともに,音声トークンのユニークな統計的性質が特別な早期終了設計を必要とすることを強調した。
関連論文リスト
- TagSpeech: End-to-End Multi-Speaker ASR and Diarization with Fine-Grained Temporal Grounding [15.908533215017059]
本稿では,テンポラルアンカーグラウンドを用いた統合フレームワークTagSpeechについて述べる。
本フレームワークは,(1)SOT(Serialized Output Training)を用いて微調整されたセマンティックストリームと話者ストリームを分離してターンテイクダイナミクスを学習し,(2)セマンティック理解と話者追跡の同期信号として機能するインターリーブ時間アンカー機構である。
論文 参考訳(メタデータ) (2026-01-11T12:40:07Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens [40.95973318669374]
本稿では,本質的な言語内容を保持しつつ,トークン長を最小化する効率的なマルチモーダル音声LLMフレームワークを提案する。
提案手法は,毎秒3.5トークンしか使用せず,WERが0.72%の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-14T11:31:30Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。