論文の概要: Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification
- arxiv url: http://arxiv.org/abs/2412.00876v3
- Date: Tue, 17 Dec 2024 14:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:35.076494
- Title: Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification
- Title(参考訳): Dynamic-LLaVA:動的視覚言語コンテキストスカラー化による効率的なマルチモーダル大言語モデル
- Authors: Wenxuan Huang, Zijie Zhai, Yunhang Shen, Shaosheng Cao, Fei Zhao, Xiangfeng Xu, Zheyu Ye, Shaohui Lin,
- Abstract要約: 動的視覚言語コンテキストスペーシフィケーションフレームワークDynamic-LLaVAを提案する。
これは、プリフィルステージにおける視覚コンテキストの冗長性を動的に減少させる。
これはデコード中に生成された言語コンテキストのメモリと計算オーバーヘッドを減少させる。
- 参考スコア(独自算出の注目度): 19.879694527735708
- License:
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable success in vision understanding, reasoning, and interaction. However, the inference computation and memory increase progressively with the generation of output tokens during decoding, directly affecting the efficacy of MLLMs. Existing methods attempt to reduce the vision context redundancy to achieve efficient MLLMs. Unfortunately, the efficiency benefits of the vision context reduction in the prefill stage gradually diminish during the decoding stage. To address this problem, we proposed a dynamic vision-language context sparsification framework Dynamic-LLaVA, which dynamically reduces the redundancy of vision context in the prefill stage and decreases the memory and computation overhead of the generated language context during decoding. Dynamic-LLaVA designs a tailored sparsification inference scheme for different inference modes, i.e., prefill, decoding with and without KV cache, to achieve efficient inference of MLLMs. In practice, Dynamic-LLaVA can reduce computation consumption by $\sim$75\% in the prefill stage. Meanwhile, throughout the entire generation process of MLLMs, Dynamic-LLaVA reduces the $\sim$50\% computation consumption under decoding without KV cache, while saving $\sim$50\% GPU memory overhead when decoding with KV cache, due to the vision-language context sparsification. Extensive experiments also demonstrate that Dynamic-LLaVA achieves efficient inference for MLLMs with negligible understanding and generation ability degradation or even performance gains compared to the full-context inference baselines. Code is available at https://github.com/Osilly/dynamic_llava .
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚理解、推論、相互作用において顕著な成功を収めた。
しかし、デコード中の出力トークンの生成により、推論計算とメモリは徐々に増加し、MLLMの有効性に直接的な影響を及ぼす。
既存の手法は、視覚コンテキストの冗長性を低減し、効率的なMLLMを実現する。
残念ながら、前処理段階における視覚コンテキスト低減の効率性は、復号段階において徐々に低下する。
この問題を解決するために、動的視覚言語コンテキストスペーシフィケーションフレームワークDynamic-LLaVAを提案し、プリフィル段階で視覚コンテキストの冗長性を動的に低減し、デコード時に生成された言語コンテキストのメモリと計算オーバーヘッドを低減させる。
Dynamic-LLaVAは、MLLMの効率的な推論を実現するために、様々な推論モード、すなわちプリフィル、KVキャッシュによるデコードのための調整されたスパーシフィケーション推論スキームを設計する。
実際にDynamic-LLaVAはプリフィルの段階で$\sim$75\%の計算量を削減できる。
一方、MLLMの生成プロセス全体を通して、Dynamic-LLaVAはKVキャッシュなしでのデコードで$\sim$50\%の計算消費を削減し、KVキャッシュでデコードする場合は$\sim$50\%のGPUメモリオーバーヘッドを節約する。
拡張実験により、Dynamic-LLaVAは、完全なコンテキスト推論ベースラインと比較して、無視可能な理解と生成能力の低下、あるいはパフォーマンス向上を伴うMLLMの効率的な推論を実現することが実証された。
コードはhttps://github.com/Osilly/dynamic_llava で公開されている。
関連論文リスト
- RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - HiMix: Reducing Computational Complexity in Large Vision-Language Models [16.33839330391886]
計算複雑性の主なボトルネックの1つは、モデル計算における冗長な視覚系列の関与である。
混合注意のための階層型視覚注入(HiMix)と呼ばれる新しい階層型視覚言語相互作用機構を提案する。
HiMixでは、言語シーケンスのみが完全な前方伝播を行い、視覚シーケンスは各言語デコーダ層内の特定の段階で言語と相互作用する。
論文 参考訳(メタデータ) (2025-01-17T17:41:47Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference [32.20654044142376]
LOOK-Mは、マルチモーダルKVキャッシュサイズを効率的に削減する、先駆的で微調整のないアプローチである。
最大1.5倍高速なデコードを実現し、また、様々な長いコンテキストマルチモーダルタスクのパフォーマンスを維持または強化する。
論文 参考訳(メタデータ) (2024-06-26T07:44:24Z) - HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。
MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-20T09:42:43Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。