論文の概要: LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
- arxiv url: http://arxiv.org/abs/2501.03895v2
- Date: Sun, 02 Mar 2025 15:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:13:12.102309
- Title: LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
- Title(参考訳): LLaVA-Mini:ワンビジョントーケンによる高能率画像とビデオ大マルチモーダルモデル
- Authors: Shaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng,
- Abstract要約: LLaVA-Miniは最小限の視覚トークンを持つ効率的な大規模マルチモーダルモデルである。
LLaVA-Miniは、FLOPを77%削減し、40ミリ秒以内で低レイテンシ応答を提供し、24GBのメモリを持つGPUハードウェア上で1万フレーム以上のビデオを処理する。
- 参考スコア(独自算出の注目度): 43.13591088045511
- License:
- Abstract: The advent of real-time large multimodal models (LMMs) like GPT-4o has sparked considerable interest in efficient LMMs. LMM frameworks typically encode visual inputs into vision tokens (continuous representations) and integrate them and textual instructions into the context of large language models (LLMs), where large-scale parameters and numerous context tokens (predominantly vision tokens) result in substantial computational overhead. Previous efforts towards efficient LMMs always focus on replacing the LLM backbone with smaller models, while neglecting the crucial issue of token quantity. In this paper, we introduce LLaVA-Mini, an efficient LMM with minimal vision tokens. To achieve a high compression ratio of vision tokens while preserving visual information, we first analyze how LMMs understand vision tokens and find that most vision tokens only play a crucial role in the early layers of LLM backbone, where they mainly fuse visual information into text tokens. Building on this finding, LLaVA-Mini introduces modality pre-fusion to fuse visual information into text tokens in advance, thereby facilitating the extreme compression of vision tokens fed to LLM backbone into one token. LLaVA-Mini is a unified large multimodal model that can support the understanding of images, high-resolution images, and videos in an efficient manner. Experiments across 11 image-based and 7 video-based benchmarks demonstrate that LLaVA-Mini outperforms LLaVA-v1.5 with just 1 vision token instead of 576. Efficiency analyses reveal that LLaVA-Mini can reduce FLOPs by 77%, deliver low-latency responses within 40 milliseconds, and process over 10,000 frames of video on the GPU hardware with 24GB of memory.
- Abstract(参考訳): GPT-4oのようなリアルタイム大規模マルチモーダルモデル(LMM)の出現は、効率的なLMMへの大きな関心を呼び起こした。
LMMフレームワークは通常、視覚入力を視覚トークン(連続表現)にエンコードし、それらとテキスト命令を大きな言語モデル(LLM)のコンテキストに統合する。
効率的なLMMへの以前の取り組みは、トークン量の重要な問題を無視しながら、常にLLMのバックボーンを小さなモデルに置き換えることに焦点を当てていた。
本稿では,最小限の視覚トークンを持つ効率的なLMMであるLLaVA-Miniを紹介する。
視覚情報を保存しながら高い圧縮率の視覚トークンを実現するために,LMMが視覚トークンをどのように理解しているかをまず分析し,ほとんどの視覚トークンがLLMバックボーンの初期層において重要な役割を担っており,主に視覚情報をテキストトークンに融合させる。
この発見に基づいて、LLaVA-Miniは、前もって視覚情報をテキストトークンに融合させるモダリティ事前融合を導入し、LLMバックボーンに供給される視覚トークンの極端な圧縮を1トークンに促進する。
LLaVA-Miniは、画像、高解像度画像、ビデオの効率的な理解を支援する、統一された大規模なマルチモーダルモデルである。
11の画像ベースと7つのビデオベースのベンチマークによる実験では、LLaVA-Miniは576ではなく1つの視覚トークンでLLaVA-v1.5を上回っている。
効率分析により、LLaVA-MiniはFLOPを77%削減し、40ミリ秒以内で低レイテンシ応答を提供し、24GBのメモリを持つGPUハードウェア上で1万フレーム以上のビデオを処理する。
関連論文リスト
- AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [56.20788367278211]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。