論文の概要: HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models
- arxiv url: http://arxiv.org/abs/2408.10945v3
- Date: Wed, 25 Dec 2024 01:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:23:21.573780
- Title: HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models
- Title(参考訳): HiRED:高分解能ビジョンランゲージモデルの効率的な推論のための注意誘導型トークンドロップ
- Authors: Kazi Hasan Ibn Arif, JinYi Yoon, Dimitrios S. Nikolopoulos, Hans Vandierendonck, Deepu John, Bo Ji,
- Abstract要約: HiREDは固定トークン予算内で運用するために設計されたトークンドロップ方式である。
既存のトークンドロップ方式に比べて精度と性能が優れている。
- 参考スコア(独自算出の注目度): 10.50453920206006
- License:
- Abstract: High-resolution Vision-Language Models (VLMs) are widely used in multimodal tasks to enhance accuracy by preserving detailed image information. However, these models often generate an excessive number of visual tokens due to the need to encode multiple partitions of a high-resolution image input. Processing such a large number of visual tokens through multiple transformer networks poses significant computational challenges, particularly for resource-constrained commodity GPUs. To address this challenge, we propose High-Resolution Early Dropping (HiRED), a plug-and-play token-dropping method designed to operate within a fixed token budget. HiRED leverages the attention of CLS token in the vision transformer (ViT) to assess the visual content of the image partitions and allocate an optimal token budget for each partition accordingly. The most informative visual tokens from each partition within the allocated budget are then selected and passed to the subsequent Large Language Model (LLM). We showed that HiRED achieves superior accuracy and performance, compared to existing token-dropping methods. Empirically, HiRED-20% (i.e., a 20% token budget) on LLaVA-Next-7B achieves a 4.7x increase in token generation throughput, reduces response latency by 78%, and saves 14% of GPU memory for single inference on an NVIDIA TESLA P40 (24 GB). For larger batch sizes (e.g., 4), HiRED-20% prevents out-of-memory errors by cutting memory usage by 30%, while preserving throughput and latency benefits. Code - https://github.com/hasanar1f/HiRED
- Abstract(参考訳): 高解像度ビジョンランゲージモデル(VLM)は、詳細な画像情報を保存することで精度を高めるために多モードタスクで広く利用されている。
しかし、高解像度画像入力の複数のパーティションをエンコードする必要があるため、これらのモデルはしばしば過度な数の視覚トークンを生成する。
このような大量の視覚トークンを複数のトランスフォーマーネットワークで処理することは、特にリソース制約のあるコモディティGPUにおいて、重要な計算上の問題を引き起こす。
この課題に対処するために,固定トークン予算内で動作するためのプラグアンドプレイトークンドロップ方式であるHigh-Resolution Early Dropping (HiRED)を提案する。
HiREDは視覚変換器(ViT)におけるCLSトークンの注意を利用して、画像パーティションの視覚的内容を評価し、各パーティションに対して最適なトークン予算を割り当てる。
割り当てられた予算内の各パーティションから最も情報に富んだ視覚トークンが選択され、後続のLarge Language Model(LLM)に渡される。
既存のトークンドロップ法と比較して,HiREDは精度と性能に優れることを示した。
経験的に、LLaVA-Next-7B上のHiRED-20%(すなわち20%トークン予算)はトークン生成スループットの4.7倍向上し、レスポンスレイテンシを78%削減し、NVIDIA TESLA P40(24GB)の単一推論でGPUメモリの14%を節約する。
より大きなバッチサイズ(例、4)では、HiRED-20%はスループットとレイテンシのメリットを保ちながら、メモリ使用量を30%削減することでメモリ外エラーを防止する。
コード - https://github.com/hasanar1f/HiRED
関連論文リスト
- FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - FlexAttention for Efficient High-Resolution Vision-Language Models [67.82024785677801]
本稿では,高解像度視覚言語モデルのためのフレキシブルアテンション機構であるFlexAttentionを提案する。
高分解能画像は高分解能トークンと低分解能トークンの両方として符号化され、低分解能トークンといくつかの選択された高分解能トークンのみが使用される。
マルチモーダルベンチマークの実験は、FlexAttentionが既存の高解像度のVLMより優れていることを証明しています。
論文 参考訳(メタデータ) (2024-07-29T17:59:05Z) - ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。
本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。
ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文 参考訳(メタデータ) (2024-05-24T17:34:15Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images [63.91986621008751]
大規模視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて例外的な性能を達成している。
本稿では,VLMの推論中に高エネルギー遅延コストを誘導することを目的とする。
本稿では,長い文を生成するためにVLMを誘導するために,知覚不能な摂動を作り出すことを目的とした冗長な画像を提案する。
論文 参考訳(メタデータ) (2024-01-20T08:46:06Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。