Fugu-MT 論文翻訳(概要): HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models

論文の概要: HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models

arxiv url: http://arxiv.org/abs/2408.10945v3
Date: Wed, 25 Dec 2024 01:27:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 17:55:26.576774
Title: HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models
Title（参考訳）: HiRED:高分解能ビジョンランゲージモデルの効率的な推論のための注意誘導型トークンドロップ
Authors: Kazi Hasan Ibn Arif, JinYi Yoon, Dimitrios S. Nikolopoulos, Hans Vandierendonck, Deepu John, Bo Ji,
Abstract要約: HiREDは固定トークン予算内で運用するために設計されたトークンドロップ方式である。既存のトークンドロップ方式に比べて精度と性能が優れている。
参考スコア（独自算出の注目度）: 10.50453920206006
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High-resolution Vision-Language Models (VLMs) are widely used in multimodal tasks to enhance accuracy by preserving detailed image information. However, these models often generate an excessive number of visual tokens due to the need to encode multiple partitions of a high-resolution image input. Processing such a large number of visual tokens through multiple transformer networks poses significant computational challenges, particularly for resource-constrained commodity GPUs. To address this challenge, we propose High-Resolution Early Dropping (HiRED), a plug-and-play token-dropping method designed to operate within a fixed token budget. HiRED leverages the attention of CLS token in the vision transformer (ViT) to assess the visual content of the image partitions and allocate an optimal token budget for each partition accordingly. The most informative visual tokens from each partition within the allocated budget are then selected and passed to the subsequent Large Language Model (LLM). We showed that HiRED achieves superior accuracy and performance, compared to existing token-dropping methods. Empirically, HiRED-20% (i.e., a 20% token budget) on LLaVA-Next-7B achieves a 4.7x increase in token generation throughput, reduces response latency by 78%, and saves 14% of GPU memory for single inference on an NVIDIA TESLA P40 (24 GB). For larger batch sizes (e.g., 4), HiRED-20% prevents out-of-memory errors by cutting memory usage by 30%, while preserving throughput and latency benefits. Code - https://github.com/hasanar1f/HiRED
Abstract（参考訳）: 高解像度ビジョンランゲージモデル(VLM)は、詳細な画像情報を保存することで精度を高めるために多モードタスクで広く利用されている。しかし、高解像度画像入力の複数のパーティションをエンコードする必要があるため、これらのモデルはしばしば過度な数の視覚トークンを生成する。このような大量の視覚トークンを複数のトランスフォーマーネットワークで処理することは、特にリソース制約のあるコモディティGPUにおいて、重要な計算上の問題を引き起こす。この課題に対処するために,固定トークン予算内で動作するためのプラグアンドプレイトークンドロップ方式であるHigh-Resolution Early Dropping (HiRED)を提案する。 HiREDは視覚変換器(ViT)におけるCLSトークンの注意を利用して、画像パーティションの視覚的内容を評価し、各パーティションに対して最適なトークン予算を割り当てる。割り当てられた予算内の各パーティションから最も情報に富んだ視覚トークンが選択され、後続のLarge Language Model(LLM)に渡される。既存のトークンドロップ法と比較して,HiREDは精度と性能に優れることを示した。経験的に、LLaVA-Next-7B上のHiRED-20%(すなわち20%トークン予算)はトークン生成スループットの4.7倍向上し、レスポンスレイテンシを78%削減し、NVIDIA TESLA P40(24GB)の単一推論でGPUメモリの14%を節約する。より大きなバッチサイズ(例、4)では、HiRED-20%はスループットとレイテンシのメリットを保ちながら、メモリ使用量を30%削減することでメモリ外エラーを防止する。コード - https://github.com/hasanar1f/HiRED

関連論文リスト

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-07-17T17:59:55Z)
VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。 1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。 VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文参考訳（メタデータ） (2025-05-28T17:59:08Z)
ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-24T15:47:49Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models [8.636574530055817]
TokenCarveは、2段階のトークン圧縮フレームワークである。ビジュアルトークンの数を22.2%に減らし、推論の1.23倍のスピードアップ、KVキャッシュストレージの64%の削減、精度の1.54%の低下を達成できる。
論文参考訳（メタデータ） (2025-03-13T16:04:31Z)
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.696397337675847]
LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文参考訳（メタデータ） (2025-03-10T17:51:16Z)
FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文参考訳（メタデータ） (2024-11-21T14:22:38Z)
Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル (VLM) では、視覚トークンはテキストトークンと比較して情報量が多すぎるにもかかわらず、計算オーバーヘッドがかなり大きい。本稿では、余分なパラメータや微調整コストを不要とするSparseVLMと呼ばれるテキスト誘導型トレーニングフリートークン最適化機構を提案する。
論文参考訳（メタデータ） (2024-10-06T09:18:04Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
FlexAttention for Efficient High-Resolution Vision-Language Models [67.82024785677801]
本稿では,高解像度視覚言語モデルのためのフレキシブルアテンション機構であるFlexAttentionを提案する。高分解能画像は高分解能トークンと低分解能トークンの両方として符号化され、低分解能トークンといくつかの選択された高分解能トークンのみが使用される。マルチモーダルベンチマークの実験は、FlexAttentionが既存の高解像度のVLMより優れていることを証明しています。
論文参考訳（メタデータ） (2024-07-29T17:59:05Z)
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。 ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文参考訳（メタデータ） (2024-05-24T17:34:15Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images [63.91986621008751]
大規模視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて例外的な性能を達成している。本稿では,VLMの推論中に高エネルギー遅延コストを誘導することを目的とする。本稿では,長い文を生成するためにVLMを誘導するために,知覚不能な摂動を作り出すことを目的とした冗長な画像を提案する。
論文参考訳（メタデータ） (2024-01-20T08:46:06Z)
Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文参考訳（メタデータ） (2022-11-21T03:48:13Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。