論文の概要: Speculative Decoding Reimagined for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14260v1
- Date: Tue, 20 May 2025 12:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.161133
- Title: Speculative Decoding Reimagined for Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルのための投機的復号化
- Authors: Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Rongrong Ji,
- Abstract要約: 本稿では,Multimodal Large Language Models(MLLM)推論を高速化するために,MSD(Multimodal Speculative Decoding)を提案する。
実験の結果、MSDはLLaVA-1.5-7Bの推論速度を最大2.29倍、LLaVA-1.5-13Bのマルチモーダルベンチマークでは最大2.46倍に向上した。
- 参考スコア(独自算出の注目度): 48.115777709178595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Multimodal Speculative Decoding (MSD) to accelerate Multimodal Large Language Models (MLLMs) inference. Speculative decoding has been shown to accelerate Large Language Models (LLMs) without sacrificing accuracy. However, current speculative decoding methods for MLLMs fail to achieve the same speedup as they do for LLMs. To address this, we reimagine speculative decoding specifically for MLLMs. Our analysis of MLLM characteristics reveals two key design principles for MSD: (1) Text and visual tokens have fundamentally different characteristics and need to be processed separately during drafting. (2) Both language modeling ability and visual perception capability are crucial for the draft model. For the first principle, MSD decouples text and visual tokens in the draft model, allowing each to be handled based on its own characteristics. For the second principle, MSD uses a two-stage training strategy: In stage one, the draft model is trained on text-only instruction-tuning datasets to improve its language modeling ability. In stage two, MSD gradually introduces multimodal data to enhance the visual perception capability of the draft model. Experiments show that MSD boosts inference speed by up to $2.29\times$ for LLaVA-1.5-7B and up to $2.46\times$ for LLaVA-1.5-13B on multimodal benchmarks, demonstrating its effectiveness. Our code is available at https://github.com/Lyn-Lucy/MSD.
- Abstract(参考訳): 本稿では,Multimodal Large Language Models(MLLM)推論を高速化するために,MSD(Multimodal Speculative Decoding)を提案する。
投機的復号化は、精度を犠牲にすることなく、Large Language Models (LLM) を加速することが示されている。
しかし、MLLM の現在の投機的復号法は LLM と同じスピードアップを達成できない。
そこで本研究では,MLLM専用の投機的復号化手法を提案する。
1)テキストと視覚トークンは根本的に異なる特徴を持ち,起草時に別々に処理する必要がある。
2) 言語モデリング能力と視覚知覚能力は, ドラフトモデルにとって重要である。
第一原則として、MSDはドラフトモデルのテキストとビジュアルトークンを分離し、それぞれの特性に基づいて処理できる。
第2の原則では、MSDは2段階のトレーニング戦略を採用している。 ステージ1では、ドラフトモデルは、テキストのみのインストラクションチューニングデータセットに基づいてトレーニングされ、言語モデリング能力を改善する。
段階2では、MSDは段階的にマルチモーダルデータを導入し、ドラフトモデルの視覚知覚能力を高める。
実験の結果、MSDはLLaVA-1.5-7Bの推論速度を最大2.29\times$、マルチモーダルベンチマークのLLaVA-1.5-13Bの最大2.46\times$に向上し、その有効性を示している。
私たちのコードはhttps://github.com/Lyn-Lucy/MSD.comで公開されています。
関連論文リスト
- MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models [0.09895793818721334]
視覚言語モデル(MASSV)の投機的復号化のためのマルチモーダル適応と自己データ蒸留を導入する。
MASSVは、既存の小さな言語モデルを2段階のアプローチで効果的なマルチモーダルドラフトに変換する。
Qwen2.5-VL と Gemma3 モデルファミリでの実験では、MASSV が許容される長さを最大30%増加し、視覚的に接地されたタスクで最大 1.46 倍のエンドツーエンドの推論速度を提供することを示した。
論文 参考訳(メタデータ) (2025-05-15T17:37:00Z) - Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - On Speculative Decoding for Multimodal Large Language Models [11.245862832561176]
MLLM(Multimodal Large Language Models)による推論は,大規模な言語モデルのバックボーンのため遅い。
言語のみのモデルがLLaVA 7Bを用いて投機的復号化のための優れたドラフトモデルとして機能することを示す。
論文 参考訳(メタデータ) (2024-04-13T00:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。