Fugu-MT 論文翻訳(概要): MMSpec: Benchmarking Speculative Decoding for Vision-Language Models

論文の概要: MMSpec: Benchmarking Speculative Decoding for Vision-Language Models

arxiv url: http://arxiv.org/abs/2603.14989v1
Date: Mon, 16 Mar 2026 08:55:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 18:28:57.887089
Title: MMSpec: Benchmarking Speculative Decoding for Vision-Language Models
Title（参考訳）: MMSpec:ビジョンランゲージモデルのためのベンチマークの投機的デコーディング
Authors: Hui Shen, Xin Wang, Ping Zhang, Yunta Hsieh, Qi Han, Zhongwei Wan, Ziheng Zhang, Jingxuan Zhang, Jing Xiong, Ziyuan Liu, Yifan Zhang, Hangrui Cao, Chenyang Zhao, Mi Zhang,
Abstract要約: 我々は、視覚言語モデルにおける投機的復号化を評価するための最初のベンチマークであるMMSpecを紹介する。 MMSpecは6つのタスクカテゴリにわたる600のマルチモーダルサンプルを含み、10の代表的な投機的復号アルゴリズムを統合している。そこで我々はViSkipを提案する。ViSkipは投機を視覚トークンに動的に適応し、最先端の性能を実現するための投機的復号法である。
参考スコア（独自算出の注目度）: 43.4716250339058
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models (VLMs) achieve strong performance on multimodal tasks but suffer from high inference latency due to large model sizes and long multimodal contexts. Speculative decoding has recently emerged as an effective acceleration technique, yet its behavior in VLMs remains insufficiently understood. We introduce MMSpec, the first benchmark for evaluating speculative decoding in vision-language models. MMSpec contains 600 multimodal samples across six task categories and integrates ten representative speculative decoding algorithms under a unified evaluation framework. Our study reveals three key findings: (1) methods designed for text-only LLMs degrade in multimodal scenarios, (2) vision awareness becomes increasingly important at larger batch sizes, and (3) throughput speedup alone does not reliably reflect latency performance. Motivated by these findings, we propose ViSkip, a plug-and-play speculative decoding method that dynamically adapts speculation to vision tokens and achieves state-of-the-art performance.
Abstract（参考訳）: 視覚言語モデル(VLM)はマルチモーダルタスクにおいて高い性能を達成するが、大きなモデルサイズと長いマルチモーダルコンテキストのために高い推論遅延に悩まされる。投機的復号化は近年,有効な加速手法として登場したが,VLMの動作はいまだに十分に理解されていない。我々は、視覚言語モデルにおける投機的復号化を評価するための最初のベンチマークであるMMSpecを紹介する。 MMSpecには6つのタスクカテゴリにわたる600のマルチモーダルサンプルが含まれており、統一された評価フレームワークの下で10の代表的な投機的復号アルゴリズムを統合している。本研究は,1)マルチモーダルシナリオにおいてテキストのみのLCMを劣化させる手法,(2)より大きなバッチサイズでは視覚認識がますます重要になり,(3)スループットの高速化だけでは遅延性能を確実に反映しない,という3つの重要な知見を提示する。これらの知見に触発されたViSkipは,投機を視覚トークンに動的に適応させ,最先端のパフォーマンスを実現するための,プラグアンドプレイの投機的復号法である。

関連論文リスト

VersaViT: Enhancing MLLM Vision Backbones via Task-Guided Optimization [87.26383908243878]
マルチモーダル大言語モデルにおける視覚エンコーダは,その高密度な特徴表現に欠けていることを示す。本稿では,協調学習のための新しいマルチタスクフレームワークであるVersaViTを提案する。
論文参考訳（メタデータ） (2026-02-10T16:08:19Z)
FLASH: Latent-Aware Semi-Autoregressive Speculative Decoding for Multimodal Tasks [41.04727840852988]
大規模言語とマルチモーダルモデル(LLMとLMM)は強い推論能力を示すが、しばしば遅い復号速度によって制限される。視覚的な入力は通常、テキストよりも低い情報密度のトークンで構成されている。 LMM用に設計された投機的復号化フレームワークである textbfFLASH (Fast Latent-Aware Semi-Autoregressive Heuristics) を提案する。
論文参考訳（メタデータ） (2025-05-19T05:35:30Z)
MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models [0.09895793818721334]
視覚言語モデル(MASSV)の投機的復号化のためのマルチモーダル適応と自己データ蒸留を導入する。 MASSVは、既存の小さな言語モデルを2段階のアプローチで効果的なマルチモーダルドラフトに変換する。 Qwen2.5-VL と Gemma3 モデルファミリでの実験では、MASSV が許容される長さを最大30%増加し、視覚的に接地されたタスクで最大 1.46 倍のエンドツーエンドの推論速度を提供することを示した。
論文参考訳（メタデータ） (2025-05-15T17:37:00Z)
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文参考訳（メタデータ） (2024-10-10T17:59:22Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。