論文の概要: Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU
- arxiv url: http://arxiv.org/abs/2409.09086v1
- Date: Wed, 11 Sep 2024 12:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 22:18:51.974840
- Title: Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU
- Title(参考訳): Inf-MLLM: 単一GPU上でのマルチモーダル大言語モデルの効率的なストリーミング推定
- Authors: Zhenyu Ning, Jieru Zhao, Qihao Jin, Wenchao Ding, Minyi Guo,
- Abstract要約: Inf-MLLMはマルチモーダル大言語モデル(MLLM)のための効率的な推論フレームワークである
Inf-MLLM は,複数の LLM と MLLM が 4M 個の長文に対して安定した性能を実現し,単一の GPU 上での 1 時間ビデオとのマルチラウンド会話を実現可能であることを示す。
- 参考スコア(独自算出の注目度): 14.719538667881311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) are distinguished by their multimodal comprehensive ability and widely used in many real-world applications including GPT-4o, autonomous driving and robotics. Despite their impressive performance, the multimodal inputs always incur long context. The inference under long context requires caching massive Key and Value states (KV cache) of previous tokens, which introduces high latency and excessive memory consumption. Due to this reason, it is challenging to deploy streaming inference of MLLMs on edge devices, which largely constrains the power and usage of MLLMs in real-world applications. In this paper, we introduce Inf-MLLM, an efficient inference framework for MLLMs, which enable streaming inference of MLLM on a single GPU with infinite context. Inf-MLLM is based on our key observation of the attention pattern in both LLMs and MLLMs called "attention saddles". Thanks to the newly discovered attention pattern, Inf-MLLM maintains a size-constrained KV cache by dynamically caching recent tokens and relevant tokens. Furthermore, Inf-MLLM proposes attention bias, a novel approach to enable MLLMs to capture long-term dependency. We show that Inf-MLLM enables multiple LLMs and MLLMs to achieve stable performance over 4M-token long texts and multi-round conversations with 1-hour-long videos on a single GPU. In addition, Inf-MLLM exhibits superior streaming reasoning quality than existing methods such as StreamingLLM and 2x speedup than H2O.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、GPT-4o、自律運転、ロボット工学など、多くの現実世界のアプリケーションで広く利用されている。
印象的な性能にもかかわらず、マルチモーダル入力は常に長いコンテキストを伴います。
長いコンテキスト下での推論では、以前のトークンの巨大なキーとバリューステート(KVキャッシュ)をキャッシュする必要がある。
このため、MLLMのストリーミング推論をエッジデバイスに展開することは困難であり、実世界のアプリケーションではMLLMのパワーと使用をほとんど制限している。
本稿では,MLLMの効率的な推論フレームワークであるInf-MLLMを紹介する。
Inf-MLLMは、LLMとMLLMの両方の注意パターンを「注意サドル」と呼ぶ重要な観察結果に基づいている。
新たに発見された注目パターンのおかげで、Inf-MLLMは、最近のトークンと関連するトークンを動的にキャッシュすることで、サイズ制限されたKVキャッシュを維持している。
さらに、Inf-MLLMは長期依存を捕捉するための新しいアプローチであるアテンションバイアスを提案する。
Inf-MLLM は,複数の LLM と MLLM が 4M 個の長文に対して安定した性能を実現し,単一の GPU 上での 1 時間ビデオとのマルチラウンド会話を実現可能であることを示す。
さらに、Inf-MLLMは、StreamingLLMやH2Oよりも2倍のスピードアップといった既存の方法よりも優れたストリーミング推論品質を示している。
関連論文リスト
- InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - COEF-VQ: Cost-Efficient Video Quality Understanding through a Cascaded Multimodal LLM Framework [11.512418684814026]
我々は,TikTok上での映像品質の理解向上を目的とした,新しいケースケードMLLMフレームワークであるCOEF-VQを提案する。
COEF-VQの有効性を示すため、TikTokのビデオ管理プラットフォーム(VMP)に新しいフレームワークをデプロイした。
この2つのタスクにおいて,COEF-VQは資源消費を抑えながら,大幅な性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-12-11T08:10:32Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。