論文の概要: ViSpec: Accelerating Vision-Language Models with Vision-Aware Speculative Decoding
- arxiv url: http://arxiv.org/abs/2509.15235v3
- Date: Tue, 23 Sep 2025 07:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 14:02:59.894643
- Title: ViSpec: Accelerating Vision-Language Models with Vision-Aware Speculative Decoding
- Title(参考訳): ViSpec: 視覚を考慮した投機的デコーディングによる視覚言語モデルの高速化
- Authors: Jialiang Kang, Han Shu, Wenshuo Li, Yingjie Zhai, Xinghao Chen,
- Abstract要約: 視覚言語モデル(VLM)に適した新しいフレームワークViSpec(ViSpec)を紹介する。
ViSpecは画像トークンをコンパクトな表現に圧縮するために軽量な視覚適応モジュールを使用している。
我々のトレーニング戦略は、ターゲットモデルの隠れた状態への直接アクセスを利用するドラフトモデルのリスクを軽減する。
- 参考スコア(独自算出の注目度): 13.295759874474767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding is a widely adopted technique for accelerating inference in large language models (LLMs), yet its application to vision-language models (VLMs) remains underexplored, with existing methods achieving only modest speedups (<1.5x). This gap is increasingly significant as multimodal capabilities become central to large-scale models. We hypothesize that large VLMs can effectively filter redundant image information layer by layer without compromising textual comprehension, whereas smaller draft models struggle to do so. To address this, we introduce Vision-Aware Speculative Decoding (ViSpec), a novel framework tailored for VLMs. ViSpec employs a lightweight vision adaptor module to compress image tokens into a compact representation, which is seamlessly integrated into the draft model's attention mechanism while preserving original image positional information. Additionally, we extract a global feature vector for each input image and augment all subsequent text tokens with this feature to enhance multimodal coherence. To overcome the scarcity of multimodal datasets with long assistant responses, we curate a specialized training dataset by repurposing existing datasets and generating extended outputs using the target VLM with modified prompts. Our training strategy mitigates the risk of the draft model exploiting direct access to the target model's hidden states, which could otherwise lead to shortcut learning when training solely on target model outputs. Extensive experiments validate ViSpec, achieving, to our knowledge, the first substantial speedup in VLM speculative decoding. Code is available at https://github.com/KangJialiang/ViSpec.
- Abstract(参考訳): 投機的復号化は、大規模言語モデル(LLM)における推論を高速化する手法として広く採用されているが、その視覚言語モデル(VLM)への応用は未検討のままであり、既存の手法ではモデストスピードアップのみを達成する (1.5x)。
マルチモーダル機能が大規模モデルの中心となるにつれて、このギャップはますます顕著になる。
大規模なVLMはテキストの理解を損なうことなく、余分な画像情報層を層単位で効果的にフィルタリングできるのに対し、より小さなドラフトモデルはそれを行うのに苦労する、という仮説を立てる。
これを解決するために、VLM用に設計された新しいフレームワークViSpec(Vi-Aware Speculative Decoding)を紹介する。
ViSpecは軽量な視覚適応モジュールを使用して画像トークンをコンパクトな表現に圧縮し、原画像の位置情報を保存しながらドラフトモデルの注意機構にシームレスに統合する。
さらに、入力画像毎にグローバルな特徴ベクトルを抽出し、その後のすべてのテキストトークンを拡張してマルチモーダルコヒーレンスを向上する。
長時間のアシスタント応答を伴うマルチモーダルデータセットの不足を克服するため、既存のデータセットを再利用し、修正されたプロンプトでターゲットVLMを使用して拡張出力を生成することで、特別なトレーニングデータセットをキュレートする。
我々のトレーニング戦略は、ターゲットモデルの隠れ状態への直接アクセスを利用するドラフトモデルのリスクを軽減し、そうでなければ、ターゲットモデルの出力のみをトレーニングする場合のショートカット学習につながる可能性がある。
大規模な実験により、VLMの投機的復号化における最初の実質的なスピードアップであるViSpecが実現された。
コードはhttps://github.com/KangJialiang/ViSpecで入手できる。
関連論文リスト
- Trust the Model: Compact VLMs as In-Context Judges for Image-Text Data Quality [5.750869893508341]
視覚言語モデル(VLM)は、視覚データを統合することで従来の大規模言語モデルを拡張し、よりリッチなマルチモーダル推論を可能にする。
高品質な画像キャプチャアノテートデータセットを微調整した,コンパクトなVLMを用いた合理化データフィルタリングフレームワークを提案する。
このモデルは、キャプションと画像品質とアライメントに基づいて、潜在的トレーニングサンプルを効果的に評価し、フィルタリングする。
論文 参考訳(メタデータ) (2025-07-27T07:20:25Z) - MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models [0.09895793818721334]
視覚言語モデル(MASSV)の投機的復号化のためのマルチモーダル適応と自己データ蒸留を導入する。
MASSVは、既存の小さな言語モデルを2段階のアプローチで効果的なマルチモーダルドラフトに変換する。
Qwen2.5-VL と Gemma3 モデルファミリでの実験では、MASSV が許容される長さを最大30%増加し、視覚的に接地されたタスクで最大 1.46 倍のエンドツーエンドの推論速度を提供することを示した。
論文 参考訳(メタデータ) (2025-05-15T17:37:00Z) - HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding [91.0552157725366]
本稿では,HoVLEという新しい高性能モノリシックVLMを提案する。
視覚的入力とテキスト入力を共有空間に変換し、LLMはテキストと同じ方法で画像を処理できる。
実験の結果,HoVLEは様々なベンチマークにおいて,主要な構成モデルに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-20T18:59:59Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task [47.1857510710807]
我々はGPT4Imageと呼ばれる新しい学習フレームワークを提案し、CNNやViTがより良い表現を学ぶのに役立つ大規模な事前学習モデルの知識を抽出する。
本研究では,様々な視覚認知タスクにおける提案アルゴリズムの有効性を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。