Fugu-MT 論文翻訳(概要): Speculative Decoding Reimagined for Multimodal Large Language Models

論文の概要: Speculative Decoding Reimagined for Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2505.14260v1
Date: Tue, 20 May 2025 12:12:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 14:49:53.161133
Title: Speculative Decoding Reimagined for Multimodal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルのための投機的復号化
Authors: Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Rongrong Ji,
Abstract要約: 本稿では,Multimodal Large Language Models(MLLM)推論を高速化するために,MSD(Multimodal Speculative Decoding)を提案する。実験の結果、MSDはLLaVA-1.5-7Bの推論速度を最大2.29倍、LLaVA-1.5-13Bのマルチモーダルベンチマークでは最大2.46倍に向上した。
参考スコア（独自算出の注目度）: 48.115777709178595
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces Multimodal Speculative Decoding (MSD) to accelerate Multimodal Large Language Models (MLLMs) inference. Speculative decoding has been shown to accelerate Large Language Models (LLMs) without sacrificing accuracy. However, current speculative decoding methods for MLLMs fail to achieve the same speedup as they do for LLMs. To address this, we reimagine speculative decoding specifically for MLLMs. Our analysis of MLLM characteristics reveals two key design principles for MSD: (1) Text and visual tokens have fundamentally different characteristics and need to be processed separately during drafting. (2) Both language modeling ability and visual perception capability are crucial for the draft model. For the first principle, MSD decouples text and visual tokens in the draft model, allowing each to be handled based on its own characteristics. For the second principle, MSD uses a two-stage training strategy: In stage one, the draft model is trained on text-only instruction-tuning datasets to improve its language modeling ability. In stage two, MSD gradually introduces multimodal data to enhance the visual perception capability of the draft model. Experiments show that MSD boosts inference speed by up to $2.29\times$ for LLaVA-1.5-7B and up to $2.46\times$ for LLaVA-1.5-13B on multimodal benchmarks, demonstrating its effectiveness. Our code is available at https://github.com/Lyn-Lucy/MSD.
Abstract（参考訳）: 本稿では,Multimodal Large Language Models(MLLM)推論を高速化するために,MSD(Multimodal Speculative Decoding)を提案する。投機的復号化は、精度を犠牲にすることなく、Large Language Models (LLM) を加速することが示されている。しかし、MLLM の現在の投機的復号法は LLM と同じスピードアップを達成できない。そこで本研究では,MLLM専用の投機的復号化手法を提案する。 1)テキストと視覚トークンは根本的に異なる特徴を持ち,起草時に別々に処理する必要がある。 2) 言語モデリング能力と視覚知覚能力は, ドラフトモデルにとって重要である。第一原則として、MSDはドラフトモデルのテキストとビジュアルトークンを分離し、それぞれの特性に基づいて処理できる。第2の原則では、MSDは2段階のトレーニング戦略を採用している。ステージ1では、ドラフトモデルは、テキストのみのインストラクションチューニングデータセットに基づいてトレーニングされ、言語モデリング能力を改善する。段階2では、MSDは段階的にマルチモーダルデータを導入し、ドラフトモデルの視覚知覚能力を高める。実験の結果、MSDはLLaVA-1.5-7Bの推論速度を最大2.29\times$、マルチモーダルベンチマークのLLaVA-1.5-13Bの最大2.46\times$に向上し、その有効性を示している。私たちのコードはhttps://github.com/Lyn-Lucy/MSD.comで公開されています。

関連論文リスト

MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models [0.09895793818721334]
視覚言語モデル(MASSV)の投機的復号化のためのマルチモーダル適応と自己データ蒸留を導入する。 MASSVは、既存の小さな言語モデルを2段階のアプローチで効果的なマルチモーダルドラフトに変換する。 Qwen2.5-VL と Gemma3 モデルファミリでの実験では、MASSV が許容される長さを最大30%増加し、視覚的に接地されたタスクで最大 1.46 倍のエンドツーエンドの推論速度を提供することを示した。
論文参考訳（メタデータ） (2025-05-15T17:37:00Z)
TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文参考訳（メタデータ） (2025-04-14T05:44:38Z)
Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文参考訳（メタデータ） (2024-12-05T16:48:16Z)
Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。 LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。 MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文参考訳（メタデータ） (2024-11-21T16:33:30Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
On Speculative Decoding for Multimodal Large Language Models [11.245862832561176]
MLLM(Multimodal Large Language Models)による推論は,大規模な言語モデルのバックボーンのため遅い。言語のみのモデルがLLaVA 7Bを用いて投機的復号化のための優れたドラフトモデルとして機能することを示す。
論文参考訳（メタデータ） (2024-04-13T00:02:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。