論文の概要: iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2412.06263v1
- Date: Mon, 09 Dec 2024 07:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:43.054904
- Title: iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models
- Title(参考訳): iLLaVA:大きなマルチモーダルモデルでは1/3入力トークンよりも画像の方が価値が高い
- Authors: Lianyu Hu, Fanhua Shang, Liang Wan, Wei Feng,
- Abstract要約: iLLaVAは、現在のLVLM(Large Vision-Language Models)にシームレスにデプロイできるシンプルな方法である。
iLLaVAは、冗長トークンを正確で高速なアルゴリズムで発見し、徐々にマージすることでこれを達成している。
単一イメージ、マルチイメージ、ビデオを含むさまざまな領域にわたるタスクにおいて、iLLaVAは一貫して有望な効率で強力な一般化性を示す。
- 参考スコア(独自算出の注目度): 24.0346607116299
- License:
- Abstract: In this paper, we introduce iLLaVA, a simple method that can be seamlessly deployed upon current Large Vision-Language Models (LVLMs) to greatly increase the throughput with nearly lossless model performance, without a further requirement to train. iLLaVA achieves this by finding and gradually merging the redundant tokens with an accurate and fast algorithm, which can merge hundreds of tokens within only one step. While some previous methods have explored directly pruning or merging tokens in the inference stage to accelerate models, our method excels in both performance and throughput by two key designs. First, while most previous methods only try to save the computations of Large Language Models (LLMs), our method accelerates the forward pass of both image encoders and LLMs in LVLMs, which both occupy a significant part of time during inference. Second, our method recycles the beneficial information from the pruned tokens into existing tokens, which avoids directly dropping context tokens like previous methods to cause performance loss. iLLaVA can nearly 2$\times$ the throughput, and reduce the memory costs by half with only a 0.2\% - 0.5\% performance drop across models of different scales including 7B, 13B and 34B. On tasks across different domains including single-image, multi-images and videos, iLLaVA demonstrates strong generalizability with consistently promising efficiency. We finally offer abundant visualizations to show the merging processes of iLLaVA in each step, which show insights into the distribution of computing resources in LVLMs. Code is available at https://github.com/hulianyuyy/iLLaVA.
- Abstract(参考訳): 本稿では,既存のLVLM(Large Vision-Language Models)にシームレスにデプロイ可能な簡単なiLLaVAを提案する。
iLLaVAは、冗長トークンを正確で高速なアルゴリズムに徐々にマージすることによって、これを達成している。
提案手法は,推論段階で直接トークンをプルーニングあるいはマージしてモデルを高速化する手法であるが,本手法は2つのキー設計による性能とスループットの両面で優れている。
まず,従来のほとんどの手法はLLM(Large Language Models)の計算を減らそうとしているが,この手法はLVLMにおける画像エンコーダとLLMの両方の前方通過を高速化する。
第2に,本手法では,既存のトークンにプルーニングされたトークンから有益な情報を再利用することで,従来のメソッドのようなコンテキストトークンを直接削除してパフォーマンス損失を発生させるのを防ぐ。
iLLaVAはスループットを2ドル近く値下げでき、メモリコストは7B、13B、34Bといった異なるスケールのモデルに対して0.2\%から0.5\%のパフォーマンス低下しかありません。
単一イメージ、マルチイメージ、ビデオを含むさまざまな領域にわたるタスクにおいて、iLLaVAは一貫して有望な効率で強力な一般化性を示す。
最終的に、各ステップでiLLaVAのマージプロセスを示すために、豊富な可視化を提供し、LVLMにおけるコンピューティングリソースの分布に関する洞察を示す。
コードはhttps://github.com/hulianyuyy/iLLaVA.comで入手できる。
関連論文リスト
- ST$^3$: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming [14.937905258757635]
$textbfST3$は、再トレーニングせずにMLLM推論を高速化するように設計されたフレームワークである。
$textbfST3$は、既存のトレーニング済みMLLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-12-28T10:17:29Z) - PruneVid: Visual Token Pruning for Efficient Video Large Language Models [24.889834611542955]
マルチモーダルビデオ理解の効率化を目的とした視覚的トークンプルーニング手法PruneVidを紹介する。
LLMは、視覚的モダリティを解釈する能力の拡張により、ビデオタスクにおいて有望なパフォーマンスを示してきた。
提案手法を複数のビデオベンチマークで検証し,トークンの80%以上をPruneVidが実行可能であることを示す。
論文 参考訳(メタデータ) (2024-12-20T18:01:58Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models [32.6661928486072]
ATP-LLaVAは、大規模言語モデル層ごとにインスタンス固有のトークンプルーニング比を適応的に決定する新しいアプローチである。
提案手法は,7つの広く使用されているベンチマークにおいて,最小1.9%の劣化しかなく,パフォーマンスを維持しながら平均トークン数を75%削減する。
論文 参考訳(メタデータ) (2024-11-30T11:42:35Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。