論文の概要: PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
- arxiv url: http://arxiv.org/abs/2410.17247v1
- Date: Tue, 22 Oct 2024 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:18.878335
- Title: PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
- Title(参考訳): PyramidDrop: ピラミッドによる視覚冗長性の低減を通じて、大きな視界ランゲージモデルを加速する
- Authors: Long Xing, Qidong Huang, Xiaoyi Dong, Jiajie Lu, Pan Zhang, Yuhang Zang, Yuhang Cao, Conghui He, Jiaqi Wang, Feng Wu, Dahua Lin,
- Abstract要約: 大きな視覚言語モデル(LVLM)では、画像は豊富な情報を運ぶ入力として機能する。
以前のアプローチでは、LVLMの初期レイヤの前後で画像トークンの数を減らそうとしていた。
本稿では,LVLMの視覚的冗長性低減戦略であるPraamidDropを提案する。
- 参考スコア(独自算出の注目度): 94.11897755903519
- License:
- Abstract: In large vision-language models (LVLMs), images serve as inputs that carry a wealth of information. As the idiom "A picture is worth a thousand words" implies, representing a single image in current LVLMs can require hundreds or even thousands of tokens. This results in significant computational costs, which grow quadratically as input image resolution increases, thereby severely impacting the efficiency of both training and inference. Previous approaches have attempted to reduce the number of image tokens either before or within the early layers of LVLMs. However, these strategies inevitably result in the loss of crucial image information, ultimately diminishing model performance. To address this challenge, we conduct an empirical study revealing that all visual tokens are necessary for LVLMs in the shallow layers, and token redundancy progressively increases in the deeper layers of the model. To this end, we propose PyramidDrop, a visual redundancy reduction strategy for LVLMs to boost their efficiency in both training and inference with neglectable performance loss. Specifically, we partition the LVLM into several stages and drop part of the image tokens at the end of each stage with a pre-defined ratio, creating pyramid-like visual tokens across model layers. The dropping is based on a lightweight similarity calculation with a negligible time overhead. Extensive experiments demonstrate that PyramidDrop can achieve a 40% training time and 55% inference FLOPs acceleration of LLaVA-NeXT with comparable performance. Besides, the PyramidDrop could also serve as a plug-and-play strategy for inference acceleration without training, with better performance and lower inference cost than counterparts. We hope that the insights and approach introduced by PyramidDrop will inspire future research to further investigate the role of image tokens in LVLMs.
- Abstract(参考訳): 大きな視覚言語モデル(LVLM)では、画像は豊富な情報を運ぶ入力として機能する。
という慣用句が示すように、現在のLVLMの1つの画像を表すには数百から数千のトークンが必要である。
これにより、入力画像の解像度が大きくなるにつれて2次的に増大する計算コストが大きくなり、トレーニングと推論の両方の効率に大きな影響を及ぼす。
以前のアプローチでは、LVLMの初期レイヤの前後で画像トークンの数を減らそうとしていた。
しかし、これらの戦略は必然的に重要な画像情報が失われ、最終的にはモデルの性能が低下する。
この課題に対処するために、浅い層におけるLVLMには全ての視覚トークンが必要であり、より深い層ではトークンの冗長性が徐々に増加することを示す実証的研究を行った。
そこで本研究では,LVLMの視覚的冗長性低減戦略であるPraamidDropを提案する。
具体的には、LVLMをいくつかのステージに分割し、各ステージの最後に画像トークンの一部を予め定義された比率でドロップし、モデル層にピラミッドのような視覚トークンを作成します。
ドロップは、無視できる時間オーバーヘッドを持つ軽量な類似性計算に基づいている。
大規模な実験により、PraamidDropは、LLaVA-NeXTの40%のトレーニング時間と55%の推論FLOPを、同等のパフォーマンスで達成できることが示された。
さらに、MraamidDropは、トレーニングなしでの推論アクセラレーションのためのプラグアンドプレイ戦略としても機能し、パフォーマンスが向上し、推論コストも低下した。
ピラミドドロップが導入した洞察とアプローチが、LVLMにおける画像トークンの役割をより深く研究するであろうことを願っている。
関連論文リスト
- VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs [14.381188702947949]
LVLM(Large Vision-Language Models)は、主に視覚エンコーダのイメージ特徴とLLM(Large Language Models)を連携させて、その優れたテキスト生成能力を活用する。
このLVLMの不均衡は幻覚の原因となる可能性がある。
本稿では,画像理解と言語推論の平衡点を求める学習自由アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-31T17:46:57Z) - LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression [23.966237939194514]
本稿では,視覚トークンに関する冗長性の解析と,大規模多言語モデルにおける効率的なトレーニングについて述べる。
最初の実験では、単に平均プーリングによってテスト段階で最大70%の視覚トークンを除去することは、視覚的質問応答精度の最小3%の低下にしか至らないことが示された。
トレーニング中の視覚トークンの数を削減し、パフォーマンスを犠牲にすることなく、トレーニング効率を向上させる。
論文 参考訳(メタデータ) (2024-06-28T17:57:14Z) - Data Attribution for Text-to-Image Models by Unlearning Synthesized Images [71.23012718682634]
テキスト・ツー・イメージ・モデルにおけるデータ帰属の目標は、新しい画像の生成に最も影響を与えるトレーニング画像を特定することである。
本稿では,高能率画像の同定を効果的に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。
この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。
本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文 参考訳(メタデータ) (2021-07-02T14:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。