論文の概要: An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference
Acceleration for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.06764v1
- Date: Mon, 11 Mar 2024 14:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:42:15.699788
- Title: An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference
Acceleration for Large Vision-Language Models
- Title(参考訳): レイヤー2後の1/2トークン画像:大規模視覚言語モデルのためのプラグアンドプレイ推論高速化
- Authors: Liang Chen, Haozhe Zhao, Tianyu Liu, Shuai Bai, Junyang Lin, Chang
Zhou, Baobao Chang
- Abstract要約: 視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
- 参考スコア(独自算出の注目度): 68.65691483168466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we identify the inefficient attention phenomena in Large
Vision-Language Models (LVLMs), notably within prominent models like LLaVA-1.5,
QwenVL-Chat and Video-LLaVA. We find out that the attention computation over
visual tokens is of extreme inefficiency in the deep layers of popular LVLMs,
suggesting a need for a sparser approach compared to textual data handling. To
this end, we introduce FastV, a versatile plug-and-play method designed to
optimize computational efficiency by learning adaptive attention patterns in
early layers and pruning visual tokens in subsequent ones. Our evaluations
demonstrate FastV's ability to dramatically reduce computational costs (e.g., a
45 reduction in FLOPs for LLaVA-1.5-13B) without sacrificing performance in a
wide range of image and video understanding tasks. The computational efficiency
and performance trade-off of FastV are highly customizable and
pareto-efficient. It can compress the FLOPs of a 13B-parameter model to achieve
a lower budget than that of a 7B-parameter model, while still maintaining
superior performance. We believe FastV has practical values for deployment of
LVLMs in edge devices and commercial models. Code is released at
https://github.com/pkunlp-icler/FastV.
- Abstract(参考訳): 本研究では,LLaVA-1.5,QwenVL-Chat,Video-LLaVAなどの顕著なモデルにおいて,LVLM(Large Vision-Language Models)における非効率な注意現象を同定する。
視覚的トークンに対する注意計算は、一般的なLVLMの深層では極めて非効率であることが判明し、テキストデータ処理と比較してスペーサーアプローチの必要性が示唆された。
そこで本研究では,早い層で適応的注意パターンを学習し,その後で視覚的トークンを刈り取ることで計算効率を最適化する汎用プラグイン・アンド・プレイ方式であるfastvを提案する。
我々の評価は、幅広い画像・映像理解タスクの性能を犠牲にすることなく、計算コストを劇的に削減するFastVの能力(例:LLaVA-1.5-13BのFLOPを45削減)を示す。
fastvの計算効率と性能トレードオフは高度にカスタマイズ可能でパレート効率が高い。
13BパラメータモデルのFLOPを圧縮して、7BパラメータモデルのFLOPよりも低い予算を達成するが、優れた性能は維持できる。
我々は、FastVがエッジデバイスや商用モデルにLVLMを配備する上で、実用的な価値を持っていると考えている。
コードはhttps://github.com/pkunlp-icler/fastvでリリースされる。
関連論文リスト
- Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [29.234931173107825]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - Vision-Language Models Learn Super Images for Efficient Partially
Relevant Video Retrieval [2.303098021872002]
本稿では,部分的関連ビデオ検索のための効率的かつ高性能な手法を提案する。
入力テキストクエリに関連する少なくとも1つのモーメントを含む長いビデオを取得することを目的としている。
論文 参考訳(メタデータ) (2023-12-01T08:38:27Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z) - MiniVLM: A Smaller and Faster Vision-Language Model [76.35880443015493]
MiniVLMは視覚特徴抽出器と視覚言語融合モジュールの2つのモジュールで構成されている。
MiniVLMはモデルサイズを73%$、推論時間コストを94%$に削減する。
論文 参考訳(メタデータ) (2020-12-13T03:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。