論文の概要: VisionZip: Longer is Better but Not Necessary in Vision Language Models
- arxiv url: http://arxiv.org/abs/2412.04467v1
- Date: Thu, 05 Dec 2024 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:43:06.696847
- Title: VisionZip: Longer is Better but Not Necessary in Vision Language Models
- Title(参考訳): VisionZip: より長いが、ビジョン言語モデルで必要ではない
- Authors: Senqiao Yang, Yukang Chen, Zhuotao Tian, Chengyao Wang, Jingyao Li, Bei Yu, Jiaya Jia,
- Abstract要約: 近年の視覚言語モデルの進歩は、視覚トークンの長さを増大させることで性能を向上している。
CLIPやSigLIPのような一般的なビジョンエンコーダによって生成されるビジュアルトークンには、かなりの冗長性が含まれている。
言語モデルに入力するための情報トークンのセットを選択する方法であるVisionZipを紹介する。
- 参考スコア(独自算出の注目度): 53.199716363090154
- License:
- Abstract: Recent advancements in vision-language models have enhanced performance by increasing the length of visual tokens, making them much longer than text tokens and significantly raising computational costs. However, we observe that the visual tokens generated by popular vision encoders, such as CLIP and SigLIP, contain significant redundancy. To address this, we introduce VisionZip, a simple yet effective method that selects a set of informative tokens for input to the language model, reducing visual token redundancy and improving efficiency while maintaining model performance. The proposed VisionZip can be widely applied to image and video understanding tasks and is well-suited for multi-turn dialogues in real-world scenarios, where previous methods tend to underperform. Experimental results show that VisionZip outperforms the previous state-of-the-art method by at least 5% performance gains across nearly all settings. Moreover, our method significantly enhances model inference speed, improving the prefilling time by 8x and enabling the LLaVA-Next 13B model to infer faster than the LLaVA-Next 7B model while achieving better results. Furthermore, we analyze the causes of this redundancy and encourage the community to focus on extracting better visual features rather than merely increasing token length. Our code is available at https://github.com/dvlab-research/VisionZip .
- Abstract(参考訳): 近年の視覚言語モデルの進歩により、視覚トークンの長さが増加し、テキストトークンよりもずっと長くなり、計算コストが大幅に向上した。
しかし、CLIPやSigLIPのような一般的な視覚エンコーダによって生成される視覚トークンには、かなりの冗長性がある。
そこで本研究では,言語モデルに入力する情報トークンのセットを選択し,視覚的トークンの冗長性を低減し,モデル性能を維持しながら効率を向上する,シンプルで効果的な方法であるVisionZipを紹介する。
提案したVisionZipは画像理解タスクやビデオ理解タスクに広く適用でき、従来の手法では性能が劣る実世界のシナリオでのマルチターン対話に適している。
実験結果から,VisionZipは従来の最先端手法よりも,ほぼすべての設定で5%以上の性能向上を達成できた。
さらに,LLaVA-Next 13Bモデルは,LLaVA-Next 7Bモデルよりも高速に推算でき,良好な結果が得られる。
さらに,この冗長性の原因を分析し,単にトークン長を増大させるのではなく,より良い視覚的特徴の抽出に着目するようコミュニティに促す。
私たちのコードはhttps://github.com/dvlab-research/VisionZipで利用可能です。
関連論文リスト
- FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression [45.37530855889661]
高解像度画像は、多モード大言語モデルに入力される視覚トークンの数を2次的に増加させる。
現在の研究は、しばしば性能を犠牲にして、効率を改善するために視覚的トークン圧縮法を開発している。
情報密度の低い冗長領域を圧縮する視覚誘導型サンプルラと、ユーザ指示と強く相関する視覚トークンを選択するテキスト誘導型サンプルラとを用いて、粗大な視覚トークン圧縮法を構築する。
論文 参考訳(メタデータ) (2024-11-21T15:37:52Z) - Recoverable Compression: A Multimodal Vision Token Recovery Mechanism Guided by Text Information [41.50379737105869]
トレーニングを必要としないテキスト情報誘導動的視覚トークン回復機構を提案する。
提案手法は,視覚トークンを平均10%まで圧縮しながら,従来の手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-09-02T11:19:54Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [56.20788367278211]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - Effective End-to-End Vision Language Pretraining with Semantic Visual
Loss [58.642954383282216]
現在の視覚言語事前学習モデルは、物体検出器から抽出された領域視覚特徴を用いた手法によって支配されている。
3種類の視覚的損失を導入し、より高速な収束と微調整精度の向上を実現した。
リージョン機能モデルと比較して、私たちのエンドツーエンドモデルは、下流タスクで同様のあるいはより良いパフォーマンスを実現し、推論中に10倍以上高速に動作します。
論文 参考訳(メタデータ) (2023-01-18T00:22:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。