Fugu-MT 論文翻訳(概要): Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification

論文の概要: Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification

arxiv url: http://arxiv.org/abs/2412.00876v3
Date: Tue, 17 Dec 2024 14:45:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.303873
Title: Dynamic-LLaVA: Efficient Multimodal Large Language Models via Dynamic Vision-language Context Sparsification
Title（参考訳）: Dynamic-LLaVA:動的視覚言語コンテキストスカラー化による効率的なマルチモーダル大言語モデル
Authors: Wenxuan Huang, Zijie Zhai, Yunhang Shen, Shaosheng Cao, Fei Zhao, Xiangfeng Xu, Zheyu Ye, Shaohui Lin,
Abstract要約: 動的視覚言語コンテキストスペーシフィケーションフレームワークDynamic-LLaVAを提案する。これは、プリフィルステージにおける視覚コンテキストの冗長性を動的に減少させる。これはデコード中に生成された言語コンテキストのメモリと計算オーバーヘッドを減少させる。
参考スコア（独自算出の注目度）: 19.879694527735708
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable success in vision understanding, reasoning, and interaction. However, the inference computation and memory increase progressively with the generation of output tokens during decoding, directly affecting the efficacy of MLLMs. Existing methods attempt to reduce the vision context redundancy to achieve efficient MLLMs. Unfortunately, the efficiency benefits of the vision context reduction in the prefill stage gradually diminish during the decoding stage. To address this problem, we proposed a dynamic vision-language context sparsification framework Dynamic-LLaVA, which dynamically reduces the redundancy of vision context in the prefill stage and decreases the memory and computation overhead of the generated language context during decoding. Dynamic-LLaVA designs a tailored sparsification inference scheme for different inference modes, i.e., prefill, decoding with and without KV cache, to achieve efficient inference of MLLMs. In practice, Dynamic-LLaVA can reduce computation consumption by $\sim$75\% in the prefill stage. Meanwhile, throughout the entire generation process of MLLMs, Dynamic-LLaVA reduces the $\sim$50\% computation consumption under decoding without KV cache, while saving $\sim$50\% GPU memory overhead when decoding with KV cache, due to the vision-language context sparsification. Extensive experiments also demonstrate that Dynamic-LLaVA achieves efficient inference for MLLMs with negligible understanding and generation ability degradation or even performance gains compared to the full-context inference baselines. Code is available at https://github.com/Osilly/dynamic_llava .
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、視覚理解、推論、相互作用において顕著な成功を収めた。しかし、デコード中の出力トークンの生成により、推論計算とメモリは徐々に増加し、MLLMの有効性に直接的な影響を及ぼす。既存の手法は、視覚コンテキストの冗長性を低減し、効率的なMLLMを実現する。残念ながら、前処理段階における視覚コンテキスト低減の効率性は、復号段階において徐々に低下する。この問題を解決するために、動的視覚言語コンテキストスペーシフィケーションフレームワークDynamic-LLaVAを提案し、プリフィル段階で視覚コンテキストの冗長性を動的に低減し、デコード時に生成された言語コンテキストのメモリと計算オーバーヘッドを低減させる。 Dynamic-LLaVAは、MLLMの効率的な推論を実現するために、様々な推論モード、すなわちプリフィル、KVキャッシュによるデコードのための調整されたスパーシフィケーション推論スキームを設計する。実際にDynamic-LLaVAはプリフィルの段階で$\sim$75\%の計算量を削減できる。一方、MLLMの生成プロセス全体を通して、Dynamic-LLaVAはKVキャッシュなしでのデコードで$\sim$50\%の計算消費を削減し、KVキャッシュでデコードする場合は$\sim$50\%のGPUメモリオーバーヘッドを節約する。拡張実験により、Dynamic-LLaVAは、完全なコンテキスト推論ベースラインと比較して、無視可能な理解と生成能力の低下、あるいはパフォーマンス向上を伴うMLLMの効率的な推論を実現することが実証された。コードはhttps://github.com/Osilly/dynamic_llava で公開されている。

関連論文リスト

LaVi: Efficient Large Vision-Language Models via Internal Feature Modulation [17.318287255400175]
本稿では,シームレスかつ効率的な視覚言語融合を実現する新しいLVLMであるLaViを提案する。視覚トークンの結合に依存する支配的なLVLMとは異なり、LaViは長いコンテキスト拡張をバイパスする。 LLaVA-OV-7Bと比較して、LaViはFLOPを94.0%削減し、推論速度を3.1倍改善し、メモリ使用量を半分に削減した。
論文参考訳（メタデータ） (2025-06-20T02:25:33Z)
SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs [74.2538340966038]
マルチモーダル言語モデル(MLLM)が視覚入力をどのように処理するかを,その注意機構を解析して検討する。 LLMにおける注目のごく一部だけが視覚的理解に有効である。我々は,KVキャッシュ最適化手法であるSparseMMを導入し,その視覚的スコアに基づいて非対称な計算予算をLLMの先頭に割り当てる。
論文参考訳（メタデータ） (2025-06-05T17:59:55Z)
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
Dynamic Pyramid Network for Efficient Multimodal Large Language Model [11.864416286283399]
MLLM(Multimodal large language model)は様々な視覚言語(VL)タスクにおいて顕著な性能を示す。近年の取り組みは、MLLMの計算コストを抑えるために視覚的特徴を圧縮することを目的としている。効率的なMLLMのための新しい動的ピラミッドネットワーク(DPN)を提案する。
論文参考訳（メタデータ） (2025-03-26T08:44:11Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。 Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文参考訳（メタデータ） (2025-01-31T11:09:16Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
LOOK-M: Look-Once Optimization in KV Cache for Efficient Multimodal Long-Context Inference [32.20654044142376]
LOOK-Mは、マルチモーダルKVキャッシュサイズを効率的に削減する、先駆的で微調整のないアプローチである。最大1.5倍高速なデコードを実現し、また、様々な長いコンテキストマルチモーダルタスクのパフォーマンスを維持または強化する。
論文参考訳（メタデータ） (2024-06-26T07:44:24Z)
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。 MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文参考訳（メタデータ） (2024-03-20T09:42:43Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [27.930351465266515]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。 MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文参考訳（メタデータ） (2024-01-29T08:13:40Z)
In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。 ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文参考訳（メタデータ） (2023-07-13T17:59:21Z)
Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文参考訳（メタデータ） (2023-05-25T07:39:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。