論文の概要: HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments
- arxiv url: http://arxiv.org/abs/2408.10945v1
- Date: Tue, 20 Aug 2024 15:34:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 13:05:41.879604
- Title: HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments
- Title(参考訳): HiRED:資源制約環境における高分解能ビジョンランゲージモデルの効率的な推論のための注意誘導型トークンドロップ
- Authors: Kazi Hasan Ibn Arif, JinYi Yoon, Dimitrios S. Nikolopoulos, Hans Vandierendonck, Deepu John, Bo Ji,
- Abstract要約: High-Resolution Early Dropping (HiRED) は、Large Language Model (LLM) ステージの前に固定トークン予算内で機能するトークンドロップ方式である。
HiREDは既存の高解像度ビジョンランゲージモデルとプラグイン・アンド・プレイで統合することができる。
NVIDIA TESLA P40 GPU上のLLaVA-Next-7Bに適用されると、20%のトークン予算を持つHiREDはトークン生成スループットを4.7向上し、ファーストトーケン生成遅延を15秒短縮し、単一の推論のために2.3GBのGPUメモリを節約する。
- 参考スコア(独自算出の注目度): 10.50453920206006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution Vision-Language Models (VLMs) have been widely used in multimodal tasks to enhance accuracy by preserving detailed image information. However, these models often generate excessive visual tokens due to encoding multiple partitions of the input image. Processing these excessive visual tokens is computationally challenging, especially in resource-constrained environments with commodity GPUs. To support high-resolution images while meeting resource constraints, we propose High-Resolution Early Dropping (HiRED), a token-dropping scheme that operates within a fixed token budget before the Large Language Model (LLM) stage. HiRED can be integrated with existing high-resolution VLMs in a plug-and-play manner, as it requires no additional training while still maintaining superior accuracy. We strategically use the vision encoder's attention in the initial layers to assess the visual content of each image partition and allocate the token budget accordingly. Then, using the attention in the final layer, we select the most important visual tokens from each partition within the allocated budget, dropping the rest. Empirically, when applied to LLaVA-Next-7B on NVIDIA TESLA P40 GPU, HiRED with a 20% token budget increases token generation throughput by 4.7, reduces first-token generation latency by 15 seconds, and saves 2.3 GB of GPU memory for a single inference.
- Abstract(参考訳): 高解像度ビジョンランゲージモデル (VLM) は、詳細な画像情報を保存することで精度を高めるために多モードタスクに広く用いられている。
しかし、これらのモデルは入力画像の複数のパーティションを符号化するため、過度な視覚トークンを生成することが多い。
これらの過剰なビジュアルトークンの処理は、特にコモディティGPUによるリソース制約のある環境では、計算的に困難である。
資源制約を満たしながら高解像度画像をサポートするために,大規模言語モデル(LLM)の段階で固定トークン予算内で機能するトークンドロップ方式であるHiRED(High-Resolution Early Dropping)を提案する。
HiREDは既存の高解像度のVLMとプラグイン・アンド・プレイで統合できる。
初期層における視覚エンコーダの注意を戦略的に利用し、各画像分割の視覚的内容を評価し、それに応じてトークン予算を割り当てる。
そして、最終レイヤの注意を使って、割り当てられた予算内の各パーティションから最も重要なビジュアルトークンを選択し、残りのトークンを削除します。
経験的に、NVIDIA TESLA P40 GPU上のLLaVA-Next-7Bに適用されると、20%のトークン予算を持つHiREDはトークン生成のスループットを4.7向上し、ファーストトケ生成のレイテンシを15秒短縮し、単一の推論のために2.3GBのGPUメモリを節約する。
関連論文リスト
- FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - FlexAttention for Efficient High-Resolution Vision-Language Models [67.82024785677801]
本稿では,高解像度視覚言語モデルのためのフレキシブルアテンション機構であるFlexAttentionを提案する。
高分解能画像は高分解能トークンと低分解能トークンの両方として符号化され、低分解能トークンといくつかの選択された高分解能トークンのみが使用される。
マルチモーダルベンチマークの実験は、FlexAttentionが既存の高解像度のVLMより優れていることを証明しています。
論文 参考訳(メタデータ) (2024-07-29T17:59:05Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images [63.91986621008751]
大規模視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて例外的な性能を達成している。
本稿では,VLMの推論中に高エネルギー遅延コストを誘導することを目的とする。
本稿では,長い文を生成するためにVLMを誘導するために,知覚不能な摂動を作り出すことを目的とした冗長な画像を提案する。
論文 参考訳(メタデータ) (2024-01-20T08:46:06Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。