論文の概要: FlexAttention for Efficient High-Resolution Vision-Language Models
- arxiv url: http://arxiv.org/abs/2407.20228v1
- Date: Mon, 29 Jul 2024 17:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 12:45:22.713405
- Title: FlexAttention for Efficient High-Resolution Vision-Language Models
- Title(参考訳): 効率的な高分解能ビジョンランゲージモデルのためのFlexAttention
- Authors: Junyan Li, Delin Chen, Tianle Cai, Peihao Chen, Yining Hong, Zhenfang Chen, Yikang Shen, Chuang Gan,
- Abstract要約: 本稿では,高解像度視覚言語モデルのためのフレキシブルアテンション機構であるFlexAttentionを提案する。
高分解能画像は高分解能トークンと低分解能トークンの両方として符号化され、低分解能トークンといくつかの選択された高分解能トークンのみが使用される。
マルチモーダルベンチマークの実験は、FlexAttentionが既存の高解像度のVLMより優れていることを証明しています。
- 参考スコア(独自算出の注目度): 67.82024785677801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current high-resolution vision-language models encode images as high-resolution image tokens and exhaustively take all these tokens to compute attention, which significantly increases the computational cost. To address this problem, we propose FlexAttention, a flexible attention mechanism for efficient high-resolution vision-language models. Specifically, a high-resolution image is encoded both as high-resolution tokens and low-resolution tokens, where only the low-resolution tokens and a few selected high-resolution tokens are utilized to calculate the attention map, which greatly shrinks the computational cost. The high-resolution tokens are selected via a high-resolution selection module which could retrieve tokens of relevant regions based on an input attention map. The selected high-resolution tokens are then concatenated to the low-resolution tokens and text tokens, and input to a hierarchical self-attention layer which produces an attention map that could be used for the next-step high-resolution token selection. The hierarchical self-attention process and high-resolution token selection process are performed iteratively for each attention layer. Experiments on multimodal benchmarks prove that our FlexAttention outperforms existing high-resolution VLMs (e.g., relatively ~9% in V* Bench, ~7% in TextVQA), while also significantly reducing the computational cost by nearly 40%.
- Abstract(参考訳): 現在の高解像度ビジョン言語モデルは、画像を高解像度の画像トークンとしてエンコードし、これらのトークン全てを計算に用いて計算コストを大幅に向上させる。
この問題に対処するために,高解像度視覚言語モデルのためのフレキシブルアテンション機構であるFlexAttentionを提案する。
具体的には、高分解能のトークンと低分解能のトークンの両方を符号化し、低分解能のトークンといくつかの選択された高分解能のトークンのみを使用してアテンションマップを計算し、計算コストを大幅に削減する。
高分解能トークンは、入力注意マップに基づいて関連する領域のトークンを検索できる高分解能選択モジュールを介して選択される。
選択された高分解能トークンは、低分解能トークンとテキストトークンに連結され、次のステップの高分解能トークン選択に使用できる注目マップを生成する階層的な自己保持層に入力される。
各注目層に対して階層的自己保持工程と高分解能トークン選択工程を反復的に行う。
マルチモーダルベンチマークの実験では、FlexAttentionは既存の高解像度VLM(例えば、V* Benchでは比較的 ~9%、TextVQAでは ~7%)より優れており、計算コストを40%近く削減しています。
関連論文リスト
- FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - TidalDecode: Fast and Accurate LLM Decoding with Position Persistent Sparse Attention [7.4088392854630625]
大規模言語モデル (LLM) は様々なNLPタスクにおいて大幅な進歩をもたらした。
本稿では,定位置スパークアテンションによる高速かつ高精度なLCMデコーディングシステムであるTidalDecodeを紹介する。
論文 参考訳(メタデータ) (2024-10-07T14:30:27Z) - HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments [10.50453920206006]
High-Resolution Early Dropping (HiRED) は、Large Language Model (LLM) ステージの前に固定トークン予算内で機能するトークンドロップ方式である。
HiREDは既存の高解像度ビジョンランゲージモデルとプラグイン・アンド・プレイで統合することができる。
NVIDIA TESLA P40 GPU上のLLaVA-Next-7Bに適用されると、20%のトークン予算を持つHiREDはトークン生成スループットを4.7向上し、ファーストトーケン生成遅延を15秒短縮し、単一の推論のために2.3GBのGPUメモリを節約する。
論文 参考訳(メタデータ) (2024-08-20T15:34:27Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - Super-Resolving Face Image by Facial Parsing Information [52.1267613768555]
顔超解像は、低解像度の顔画像を対応する高解像度の画像に変換する技術である。
我々は,低解像度の顔画像から先行する顔を抽出する,新しい解析マップ付き顔超解像ネットワークを構築した。
高解像度特徴はより正確な空間情報を含み、低解像度特徴は強い文脈情報を提供する。
論文 参考訳(メタデータ) (2023-04-06T08:19:03Z) - Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text
Spotting [49.33891486324731]
コスト効率の高い動的低分解能蒸留(DLD)テキストスポッティングフレームワークを提案する。
それは、小さなが認識可能な解像度で画像を推測し、精度と効率のバランスを改善することを目的としている。
提案手法はエンド・ツー・エンドを最適化し,既存のテキストスポッティング・フレームワークに実装することで,実践性を向上させる。
論文 参考訳(メタデータ) (2022-07-14T06:49:59Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - High Quality Segmentation for Ultra High-resolution Images [72.97958314291648]
超高分解能セグメンテーション精錬作業のための連続精細モデルを提案する。
提案手法は画像分割精細化において高速かつ効果的である。
論文 参考訳(メタデータ) (2021-11-29T11:53:06Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。