論文の概要: SpecVLM: Fast Speculative Decoding in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.11815v1
- Date: Mon, 15 Sep 2025 11:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.257987
- Title: SpecVLM: Fast Speculative Decoding in Vision-Language Models
- Title(参考訳): SpecVLM:視覚言語モデルにおける高速な投機的デコーディング
- Authors: Haiduo Huang, Fuwei Yang, Zhenhua Liu, Xuanwu Yin, Dong Li, Pengju Ren, Emad Barsoum,
- Abstract要約: 投機的復号化は自己回帰型大規模言語モデル(LLM)を高速化する強力な方法である
視覚言語モデル(VLM)の投機的復号化について検討する。
1.5--2.3xのエンドツーエンドの高速化を完全自己回帰推論で実現する実用システムであるSpecVLMを紹介する。
- 参考スコア(独自算出の注目度): 14.243294546325714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding is a powerful way to accelerate autoregressive large language models (LLMs), but directly porting it to vision-language models (VLMs) faces unique systems constraints: the prefill stage is dominated by visual tokens whose count scales with image resolution and video length, inflating both compute and memory, especially the key-value (KV) cache. We study speculative decoding for VLMs and introduce SpecVLM, a practical system that (1) establishes a strong EAGLE-2-style baseline, EagleVLM, delivering 1.5--2.3x end-to-end speedups over full autoregressive inference, and (2) further accelerates VLM inference with an elastic visual compressor that adaptively selects among pruning, pooling, convolution, and resampler primitives to balance FLOPs/parameters and accuracy per input. To avoid costly offline distillation corpora, we propose an online-logit distillation protocol that trains the draft model with on-the-fly teacher logits and penultimate features using a combined cross-entropy and Smooth L1 objective, eliminating storage and preprocessing while remaining compute-efficient. This protocol reveals a training-time scaling effect: longer online training monotonically increases the draft model's average accepted length, improving speculative efficiency. Empirically, SpecVLM achieves additional acceleration, culminating in 2.5--2.9x end-to-end speedups within 5 epochs across LLaVA and MMMU, consistently over resolutions and task difficulties, while preserving the target model's output distribution (lossless decoding). Our code is available at https://github.com/haiduo/SpecVLM.
- Abstract(参考訳): 投機的復号化は、自動回帰型大言語モデル(LLM)を高速化する強力な方法であるが、視覚言語モデル(VLM)に直接移植する際、独自のシステム制約に直面している。
我々は,VLMの投機的デコードについて検討し,(1)強いERGLE-2スタイルのベースラインであるEagleVLMを確立し,1.5--2.3xのエンドツーエンドのスピードアップを完全な自己回帰的推論で提供する実用システムであるSpecVLMを紹介した。
安価でオフラインな蒸留コーパスを避けるため,オンラインロジット蒸留プロトコルを提案する。本プロトコルは,オンラインロジット蒸留プロトコルを用いて,計算効率を保ちながら,貯蔵・前処理を不要にしつつ,クロスエントロピーとスムースL1の目的を併用して,オンラインロジット蒸留プロトコルを提案する。
より長いオンライントレーニングは、ドラフトモデルの許容される平均長を単調に増加させ、投機的効率を向上させる。
実験的に、SpecVLMは2.5--2.9xのエンド・ツー・エンドのスピードアップをLLaVAとMMMUの5エポックで達成し、目標モデルの出力分布を保ちながら、常に解像度とタスクの困難を克服する。
私たちのコードはhttps://github.com/haiduo/SpecVLM.comで公開されています。
関連論文リスト
- Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。
本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。
本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:39:15Z) - DREAM: Drafting with Refined Target Features and Entropy-Adaptive Cross-Attention Fusion for Multimodal Speculative Decoding [11.946177537665402]
投機的復号化(SD)は,大規模言語モデル(LLM)における自己回帰生成を高速化する強力な手法として登場した。
視覚言語モデル(VLM)に適した新しい投機的復号化フレームワークであるDREAMを紹介する。
論文 参考訳(メタデータ) (2025-05-25T15:56:50Z) - Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。
視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。
実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文 参考訳(メタデータ) (2025-03-26T04:16:48Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。