論文の概要: DREAM: Drafting with Refined Target Features and Entropy-Adaptive Cross-Attention Fusion for Multimodal Speculative Decoding
- arxiv url: http://arxiv.org/abs/2505.19201v2
- Date: Thu, 29 May 2025 12:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:34.111989
- Title: DREAM: Drafting with Refined Target Features and Entropy-Adaptive Cross-Attention Fusion for Multimodal Speculative Decoding
- Title(参考訳): DREAM:マルチモーダル投機的復号化のための改良ターゲット特徴とエントロピー適応型クロスアテンション融合
- Authors: Yunhai Hu, Tianhua Xia, Zining Liu, Rahul Raman, Xingyu Liu, Bo Bao, Eric Sather, Vithursan Thangarasa, Sai Qian Zhang,
- Abstract要約: 投機的復号化(SD)は,大規模言語モデル(LLM)における自己回帰生成を高速化する強力な手法として登場した。
視覚言語モデル(VLM)に適した新しい投機的復号化フレームワークであるDREAMを紹介する。
- 参考スコア(独自算出の注目度): 11.946177537665402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speculative decoding (SD) has emerged as a powerful method for accelerating autoregressive generation in large language models (LLMs), yet its integration into vision-language models (VLMs) remains underexplored. We introduce DREAM, a novel speculative decoding framework tailored for VLMs that combines three key innovations: (1) a cross-attention-based mechanism to inject intermediate features from the target model into the draft model for improved alignment, (2) adaptive intermediate feature selection based on attention entropy to guide efficient draft model training, and (3) visual token compression to reduce draft model latency. DREAM enables efficient, accurate, and parallel multimodal decoding with significant throughput improvement. Experiments across a diverse set of recent popular VLMs, including LLaVA, Pixtral, SmolVLM and Gemma3, demonstrate up to 3.6x speedup over conventional decoding and significantly outperform prior SD baselines in both inference throughput and speculative draft acceptance length across a broad range of multimodal benchmarks. The code is publicly available at: https://github.com/SAI-Lab-NYU/DREAM.git
- Abstract(参考訳): 投機的復号法 (SD) は大規模言語モデル (LLM) における自己回帰生成を高速化する強力な手法として登場したが、視覚言語モデル (VLM) への統合は未解明のままである。
1)目標モデルから中間機能をドラフトモデルに注入してアライメントを改善するクロスアテンションベースのメカニズム,(2)アテンションエントロピーに基づく適応型中間特徴選択による効率的なドラフトモデルトレーニングのガイド,(3) ドラフトモデル遅延を低減するビジュアルトークン圧縮,の3つの重要な革新を取り入れた,新たな投機的デコーディングフレームワークであるDREAMを紹介する。
DREAMは、スループットが大幅に向上した効率的な、正確で、並列なマルチモーダルデコーディングを可能にする。
LLaVA(英語版)、Pixtral(英語版)、SmolVLM(英語版)、Gemma3(英語版)を含む最近のVLMの様々な実験は、従来の復号化よりも最大3.6倍のスピードアップを示し、推論スループットと投機的ドラフト受入長の両方において、広範囲のマルチモーダルベンチマークにおいて、以前のSDベースラインを大幅に上回っている。
コードは、https://github.com/SAI-Lab-NYU/DREAM.gitで公開されている。
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - FLASH: Latent-Aware Semi-Autoregressive Speculative Decoding for Multimodal Tasks [41.04727840852988]
大規模言語とマルチモーダルモデル(LLMとLMM)は強い推論能力を示すが、しばしば遅い復号速度によって制限される。
視覚的な入力は通常、テキストよりも低い情報密度のトークンで構成されている。
LMM用に設計された投機的復号化フレームワークである textbfFLASH (Fast Latent-Aware Semi-Autoregressive Heuristics) を提案する。
論文 参考訳(メタデータ) (2025-05-19T05:35:30Z) - MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models [0.09895793818721334]
視覚言語モデル(MASSV)の投機的復号化のためのマルチモーダル適応と自己データ蒸留を導入する。
MASSVは、既存の小さな言語モデルを2段階のアプローチで効果的なマルチモーダルドラフトに変換する。
Qwen2.5-VL と Gemma3 モデルファミリでの実験では、MASSV が許容される長さを最大30%増加し、視覚的に接地されたタスクで最大 1.46 倍のエンドツーエンドの推論速度を提供することを示した。
論文 参考訳(メタデータ) (2025-05-15T17:37:00Z) - InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。
特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。
オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (2025-04-14T17:59:25Z) - SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。