論文の概要: An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.06764v2
- Date: Mon, 25 Mar 2024 13:29:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 01:06:08.528692
- Title: An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models
- Title(参考訳): レイヤー2後の1/2トークン画像:大規模視覚言語モデルのためのプラグ・アンド・プレイ推論高速化
- Authors: Liang Chen, Haozhe Zhao, Tianyu Liu, Shuai Bai, Junyang Lin, Chang Zhou, Baobao Chang,
- Abstract要約: 視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
- 参考スコア(独自算出の注目度): 65.37846460916042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we identify the inefficient attention phenomena in Large Vision-Language Models (LVLMs), notably within prominent models like LLaVA-1.5, QwenVL-Chat and Video-LLaVA. We find out that the attention computation over visual tokens is of extreme inefficiency in the deep layers of popular LVLMs, suggesting a need for a sparser approach compared to textual data handling. To this end, we introduce FastV, a versatile plug-and-play method designed to optimize computational efficiency by learning adaptive attention patterns in early layers and pruning visual tokens in subsequent ones. Our evaluations demonstrate FastV's ability to dramatically reduce computational costs (e.g., a 45 reduction in FLOPs for LLaVA-1.5-13B) without sacrificing performance in a wide range of image and video understanding tasks. The computational efficiency and performance trade-off of FastV are highly customizable and pareto-efficient. It can compress the FLOPs of a 13B-parameter model to achieve a lower budget than that of a 7B-parameter model, while still maintaining superior performance. We believe FastV has practical values for deployment of LVLMs in edge devices and commercial models. Code is released at https://github.com/pkunlp-icler/FastV.
- Abstract(参考訳): 本研究では,LLaVA-1.5,QwenVL-Chat,Video-LLaVAなどの顕著なモデルにおいて,LVLM(Large Vision-Language Models)における非効率な注意現象を同定する。
視覚的トークンに対する注意計算は、一般的なLVLMの深層では極めて非効率であることが判明し、テキストデータ処理と比較してスペーサーアプローチの必要性が示唆された。
この目的のために我々は,初期層における適応的な注意パターンを学習し,その後の層で視覚トークンをプルーニングすることにより,計算効率を最適化する汎用的なプラグアンドプレイ方式であるFastVを紹介する。
我々の評価は、幅広い画像・映像理解タスクの性能を犠牲にすることなく、計算コストを劇的に削減するFastV(例えば、LLaVA-1.5-13BのFLOPを45削減する)の能力を示す。
FastVの計算効率と性能トレードオフは、高度にカスタマイズ可能で、パレート効率が高い。
13BパラメータモデルのFLOPを圧縮して、7BパラメータモデルのFLOPよりも低い予算を達成するが、優れた性能は維持できる。
我々は、FastVがエッジデバイスや商用モデルにLVLMを配備する上で、実用的な価値を持っていると考えている。
コードはhttps://github.com/pkunlp-icler/FastVで公開されている。
関連論文リスト
- Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression [29.163757099307553]
大型視覚言語モデル(LVLM)のための効率的な推論フレームワークZipVLを提案する。
ZipVLは重要なトークンの動的比割り当て戦略によって計算とメモリのボトルネックを解消する。
実験によると、ZipVLはプリフィルフェーズを2.6$times$で加速し、GPUメモリ使用量を50.0%削減できる。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation [29.34754905469359]
AVESFormerは、高速、効率的、軽量を同時に実現した最初のリアルタイム視覚効率変換器である。
AVESFormerはモデル性能を大幅に向上させ、S4では79.9%、MS3では57.9%、AVSSでは31.2%を達成した。
論文 参考訳(メタデータ) (2024-08-03T08:25:26Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - MiniVLM: A Smaller and Faster Vision-Language Model [76.35880443015493]
MiniVLMは視覚特徴抽出器と視覚言語融合モジュールの2つのモジュールで構成されている。
MiniVLMはモデルサイズを73%$、推論時間コストを94%$に削減する。
論文 参考訳(メタデータ) (2020-12-13T03:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。