Fugu-MT 論文翻訳(概要): HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments

論文の概要: HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments

arxiv url: http://arxiv.org/abs/2408.10945v1
Date: Tue, 20 Aug 2024 15:34:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 13:05:41.879604
Title: HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments
Title（参考訳）: HiRED:資源制約環境における高分解能ビジョンランゲージモデルの効率的な推論のための注意誘導型トークンドロップ
Authors: Kazi Hasan Ibn Arif, JinYi Yoon, Dimitrios S. Nikolopoulos, Hans Vandierendonck, Deepu John, Bo Ji,
Abstract要約: High-Resolution Early Dropping (HiRED) は、Large Language Model (LLM) ステージの前に固定トークン予算内で機能するトークンドロップ方式である。 HiREDは既存の高解像度ビジョンランゲージモデルとプラグイン・アンド・プレイで統合することができる。 NVIDIA TESLA P40 GPU上のLLaVA-Next-7Bに適用されると、20%のトークン予算を持つHiREDはトークン生成スループットを4.7向上し、ファーストトーケン生成遅延を15秒短縮し、単一の推論のために2.3GBのGPUメモリを節約する。
参考スコア（独自算出の注目度）: 10.50453920206006
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: High-resolution Vision-Language Models (VLMs) have been widely used in multimodal tasks to enhance accuracy by preserving detailed image information. However, these models often generate excessive visual tokens due to encoding multiple partitions of the input image. Processing these excessive visual tokens is computationally challenging, especially in resource-constrained environments with commodity GPUs. To support high-resolution images while meeting resource constraints, we propose High-Resolution Early Dropping (HiRED), a token-dropping scheme that operates within a fixed token budget before the Large Language Model (LLM) stage. HiRED can be integrated with existing high-resolution VLMs in a plug-and-play manner, as it requires no additional training while still maintaining superior accuracy. We strategically use the vision encoder's attention in the initial layers to assess the visual content of each image partition and allocate the token budget accordingly. Then, using the attention in the final layer, we select the most important visual tokens from each partition within the allocated budget, dropping the rest. Empirically, when applied to LLaVA-Next-7B on NVIDIA TESLA P40 GPU, HiRED with a 20% token budget increases token generation throughput by 4.7, reduces first-token generation latency by 15 seconds, and saves 2.3 GB of GPU memory for a single inference.
Abstract（参考訳）: 高解像度ビジョンランゲージモデル (VLM) は、詳細な画像情報を保存することで精度を高めるために多モードタスクに広く用いられている。しかし、これらのモデルは入力画像の複数のパーティションを符号化するため、過度な視覚トークンを生成することが多い。これらの過剰なビジュアルトークンの処理は、特にコモディティGPUによるリソース制約のある環境では、計算的に困難である。資源制約を満たしながら高解像度画像をサポートするために,大規模言語モデル(LLM)の段階で固定トークン予算内で機能するトークンドロップ方式であるHiRED(High-Resolution Early Dropping)を提案する。 HiREDは既存の高解像度のVLMとプラグイン・アンド・プレイで統合できる。初期層における視覚エンコーダの注意を戦略的に利用し、各画像分割の視覚的内容を評価し、それに応じてトークン予算を割り当てる。そして、最終レイヤの注意を使って、割り当てられた予算内の各パーティションから最も重要なビジュアルトークンを選択し、残りのトークンを削除します。経験的に、NVIDIA TESLA P40 GPU上のLLaVA-Next-7Bに適用されると、20%のトークン予算を持つHiREDはトークン生成のスループットを4.7向上し、ファーストトケ生成のレイテンシを15秒短縮し、単一の推論のために2.3GBのGPUメモリを節約する。

関連論文リスト

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-07-17T17:59:55Z)
VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。 1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。 VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文参考訳（メタデータ） (2025-05-28T17:59:08Z)
ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-24T15:47:49Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models [8.636574530055817]
TokenCarveは、2段階のトークン圧縮フレームワークである。ビジュアルトークンの数を22.2%に減らし、推論の1.23倍のスピードアップ、KVキャッシュストレージの64%の削減、精度の1.54%の低下を達成できる。
論文参考訳（メタデータ） (2025-03-13T16:04:31Z)
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.696397337675847]
LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文参考訳（メタデータ） (2025-03-10T17:51:16Z)
FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文参考訳（メタデータ） (2024-11-21T14:22:38Z)
Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル (VLM) では、視覚トークンはテキストトークンと比較して情報量が多すぎるにもかかわらず、計算オーバーヘッドがかなり大きい。本稿では、余分なパラメータや微調整コストを不要とするSparseVLMと呼ばれるテキスト誘導型トレーニングフリートークン最適化機構を提案する。
論文参考訳（メタデータ） (2024-10-06T09:18:04Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
FlexAttention for Efficient High-Resolution Vision-Language Models [67.82024785677801]
本稿では,高解像度視覚言語モデルのためのフレキシブルアテンション機構であるFlexAttentionを提案する。高分解能画像は高分解能トークンと低分解能トークンの両方として符号化され、低分解能トークンといくつかの選択された高分解能トークンのみが使用される。マルチモーダルベンチマークの実験は、FlexAttentionが既存の高解像度のVLMより優れていることを証明しています。
論文参考訳（メタデータ） (2024-07-29T17:59:05Z)
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models [77.59651787115546]
高解像度のLMM(Large Multimodal Models)は、過度な視覚トークンと二次的な視覚的複雑さの課題に直面する。本稿では,LMMのビジュアルエンコーダとして,階層的なバックボーンであるConvNeXtを用いるConvLLaVAを提案する。 ConvLLaVAは高解像度画像を情報豊富な視覚特徴に圧縮し、過剰な視覚トークンの発生を効果的に防止する。
論文参考訳（メタデータ） (2024-05-24T17:34:15Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images [63.91986621008751]
大規模視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて例外的な性能を達成している。本稿では,VLMの推論中に高エネルギー遅延コストを誘導することを目的とする。本稿では,長い文を生成するためにVLMを誘導するために,知覚不能な摂動を作り出すことを目的とした冗長な画像を提案する。
論文参考訳（メタデータ） (2024-01-20T08:46:06Z)
Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文参考訳（メタデータ） (2022-11-21T03:48:13Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。