論文の概要: LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference
- arxiv url: http://arxiv.org/abs/2406.18139v1
- Date: Wed, 26 Jun 2024 07:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 14:18:49.881764
- Title: LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference
- Title(参考訳): LOOK-M: 効率的なマルチモーダル長コンテキスト推論のためのKVキャッシュにおけるルックオース最適化
- Authors: Zhongwei Wan, Ziang Wu, Che Liu, Jinfa Huang, Zhihong Zhu, Peng Jin, Longyue Wang, Li Yuan,
- Abstract要約: LOOK-Mは、マルチモーダルKVキャッシュサイズを効率的に削減する、先駆的で微調整のないアプローチである。
最大1.5倍高速なデコードを実現し、また、様々な長いコンテキストマルチモーダルタスクのパフォーマンスを維持または強化する。
- 参考スコア(独自算出の注目度): 32.20654044142376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context Multimodal Large Language Models (MLLMs) demand substantial computational resources for inference as the growth of their multimodal Key-Value (KV) cache, in response to increasing input lengths, challenges memory and time efficiency. Unlike single-modality LLMs that manage only textual contexts, the KV cache of long-context MLLMs includes representations from multiple images with temporal and spatial relationships and related textual contexts. The predominance of image tokens means traditional optimizations for LLMs' KV caches are unsuitable for multimodal long-context settings, and no prior works have addressed this challenge. In this work, we introduce LOOK-M, a pioneering, fine-tuning-free approach that efficiently reduces the multimodal KV cache size while maintaining performance comparable to a full cache. We observe that during prompt prefill, the model prioritizes more textual attention over image features, and based on the multimodal interaction observation, a new proposed text-prior method is explored to compress the KV cache. Furthermore, to mitigate the degradation of image contextual information, we propose several compensatory strategies using KV pairs merging. LOOK-M demonstrates that with a significant reduction in KV Cache memory usage, such as reducing it by 80% in some cases, it not only achieves up to 1.5x faster decoding but also maintains or even enhances performance across a variety of long context multimodal tasks.
- Abstract(参考訳): MLLM(Long-context Multimodal Large Language Models)は、入力長の増加、メモリと時間効率の課題への対処として、マルチモーダルキーバリュー(KV)キャッシュの成長を推論するために、かなりの計算資源を必要とする。
テキストコンテキストのみを管理する単一モダリティLLMとは異なり、長文MLLMのKVキャッシュには、時間的および空間的関係と関連するテキストコンテキストを持つ複数の画像からの表現が含まれている。
画像トークンの優位性は、LLMのKVキャッシュの従来の最適化がマルチモーダルな長文設定には適さないことを意味し、この課題に対処する以前の研究は行われていない。
本研究では,マルチモーダルKVキャッシュサイズを効率よく削減し,フルキャッシュに匹敵する性能を維持しつつ,先駆的かつ微調整のないアプローチであるLOOK-Mを紹介する。
提案手法は, 画像特徴よりもテキストの注意を優先し, マルチモーダルインタラクション観測に基づいて, KVキャッシュを圧縮するための新しいテキストプライア法を提案する。
さらに,画像コンテキスト情報の劣化を軽減するために,KVペアの融合による補正戦略を提案する。
LOOK-Mは、KVキャッシュのメモリ使用量を80%削減するなど、KVキャッシュのメモリ使用量が大幅に削減されたことにより、最大1.5倍高速な復号化を実現するだけでなく、様々な長いコンテキストマルチモーダルタスクにおけるパフォーマンスの維持や向上も図っている。
関連論文リスト
- VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration [7.463830743649754]
VLM(Vision-Language Models)は、多目的なタスクセットにまたがる印象的なパフォーマンスを実証している。
キーバリュー(KV)キャッシュは、画像やビデオなどの長い視覚的コンテキストをエンコードする。
既存のKVキャッシュ圧縮手法は大規模言語モデル(LLM)に有効である
VLM推論の高速化に適した新しいKVキャッシュ圧縮レシピを提案する。
論文 参考訳(メタデータ) (2024-10-29T20:04:34Z) - Inference-Friendly Models With MixAttention [7.103010772135246]
MixAttentionは、最近のトークンの小さなサブセットだけをKVキャッシュに格納するスライディングウィンドウアテンションと、レイヤ間のKVキャッシュ共有を組み合わせたものだ。
実験により,MixAttentionはメモリ使用量を大幅に削減し,短文タスクと長文タスクの両方においてモデル性能を犠牲にすることなく推論速度を向上することを示した。
論文 参考訳(メタデータ) (2024-09-23T13:37:25Z) - LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via a Hybrid Architecture [18.459825048813336]
LongLLaVAは最初のハイブリッドMLLMであり、効率と効率のバランスが良くなった。
A100 80GBのGPUで1000近い画像を処理し、幅広いタスクに期待できるアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2024-09-04T17:25:21Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Model Tells You Where to Merge: Adaptive KV Cache Merging for LLMs on Long-Context Tasks [21.815661269986425]
KVMergerと呼ばれる新しいKVキャッシュマージ手法を提案し、長文タスクに対して適応的なKVキャッシュ圧縮を実現する。
我々のアプローチは、キー状態が1つのシーケンス内のトークンレベルで高い類似性を示すという興味深い観察にインスパイアされている。
我々は,制約メモリ予算下での長時間コンテキストタスクに対するKVMergerの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-07-11T12:50:42Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。