論文の概要: MHA2MLA-VLM: Enabling DeepSeek's Economical Multi-Head Latent Attention across Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.11464v1
- Date: Fri, 16 Jan 2026 17:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.58475
- Title: MHA2MLA-VLM: Enabling DeepSeek's Economical Multi-Head Latent Attention across Vision-Language Models
- Title(参考訳): MHA2MLA-VLM:DeepSeekのビジョン・ランゲージ・モデルにおける経済的マルチヘッド遅延注意の実現
- Authors: Xiaoran Fan, Zhichao Sun, Tao Ji, Lixing Shen, Tao Gui,
- Abstract要約: MHA2MLA-VLMは、市販の視覚言語モデルをMLA(Multi-Head Latent Attention)に変換するためのフレームワークである。
MHA2MLA-VLMは、最小教師付きデータで元のモデル性能を復元し、KVキャッシュのフットプリントを大幅に削減し、KV量子化とシームレスに統合することを示す。
- 参考スコア(独自算出の注目度): 37.41464628858585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As vision-language models (VLMs) tackle increasingly complex and multimodal tasks, the rapid growth of Key-Value (KV) cache imposes significant memory and computational bottlenecks during inference. While Multi-Head Latent Attention (MLA) offers an effective means to compress the KV cache and accelerate inference, adapting existing VLMs to the MLA architecture without costly pretraining remains largely unexplored. In this work, we present MHA2MLA-VLM, a parameter-efficient and multimodal-aware framework for converting off-the-shelf VLMs to MLA. Our approach features two core techniques: (1) a modality-adaptive partial-RoPE strategy that supports both traditional and multimodal settings by selectively masking nonessential dimensions, and (2) a modality-decoupled low-rank approximation method that independently compresses the visual and textual KV spaces. Furthermore, we introduce parameter-efficient fine-tuning to minimize adaptation cost and demonstrate that minimizing output activation error, rather than parameter distance, substantially reduces performance loss. Extensive experiments on three representative VLMs show that MHA2MLA-VLM restores original model performance with minimal supervised data, significantly reduces KV cache footprint, and integrates seamlessly with KV quantization.
- Abstract(参考訳): 視覚言語モデル(VLM)がますます複雑でマルチモーダルなタスクに取り組むにつれ、キーバリュー(KV)キャッシュの急速な成長は、推論中に重要なメモリと計算ボトルネックを課す。
MLA(Multi-Head Latent Attention)は、KVキャッシュを圧縮し、推論を高速化する効果的な手段を提供する一方で、既存のVLMを高価な事前学習なしにMLAアーキテクチャに適応させる方法は、ほとんど探索されていない。
本稿では,MHA2MLA-VLMについて述べる。パラメータ効率とマルチモーダル対応のフレームワークで,既製のVLMをMLAに変換する。
提案手法は,(1)視覚的かつテキスト的KV空間を独立に圧縮するモダリティ非結合型低ランク近似法である。
さらに,適応コストを最小限に抑えるためにパラメータ効率の良い微調整を導入し,パラメータ距離よりも出力アクティベーション誤差を最小化することで,性能損失を大幅に低減することを示した。
MHA2MLA-VLMは、最小の教師付きデータで元のモデル性能を復元し、KVキャッシュのフットプリントを大幅に削減し、KV量子化とシームレスに統合することを示す。
関連論文リスト
- EG-MLA: Embedding-Gated Multi-head Latent Attention for Scalable and Efficient LLMs [8.093922145280326]
キー値(KV)キャッシュサイズは、大規模言語モデル(LLM)における効率的な推論を実現するための重要なステップである。
最近のMLA(Multi-head Latent Attention)の研究は、KV表現を共有潜在空間に圧縮することでこれを緩和している。
MLAの新たな拡張である textbfEmbedding-Gated Multi-head Latent Attention (EG-MLA) を提案する。
論文 参考訳(メタデータ) (2025-09-20T13:27:13Z) - SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference [71.20542521694524]
SmallKVはKVキャッシュ圧縮のための小型モデル補助補償法である。
本研究では,SmallKVのスループットがベースライン法よりも1.75~2.56倍高いことを示す。
論文 参考訳(メタデータ) (2025-08-03T09:15:36Z) - Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study [64.26593350748401]
MLLM(Multimodal Large Language Models)は印象的な機能を示す。
SLM(Small Language Models)からのMLLMの学習を主とするパラメータ削減技術
本稿では, 構造物の刈り込みと効率的な回復訓練を組み合わせることで, 既存のMLLMを直接圧縮することを提案する。
論文 参考訳(メタデータ) (2025-07-28T11:57:52Z) - IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。
IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文 参考訳(メタデータ) (2025-07-16T06:39:11Z) - Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [92.7279890407059]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference [32.20654044142376]
LOOK-Mは、マルチモーダルKVキャッシュサイズを効率的に削減する、先駆的で微調整のないアプローチである。
最大1.5倍高速なデコードを実現し、また、様々な長いコンテキストマルチモーダルタスクのパフォーマンスを維持または強化する。
論文 参考訳(メタデータ) (2024-06-26T07:44:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。