論文の概要: A-VL: Adaptive Attention for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2409.14846v1
- Date: Mon, 23 Sep 2024 09:22:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 20:39:08.901161
- Title: A-VL: Adaptive Attention for Large Vision-Language Models
- Title(参考訳): A-VL:大規模視覚言語モデルに対する適応的注意
- Authors: Junyang Zhang, Mu Yuan, Ruiguang Zhong, Puhan Luo, Huiyou Zhan, Ningkang Zhang, Chengchen Hu, Xiangyang Li,
- Abstract要約: LVLM(Large Vision-Language Model)は、コンピュータビジョンと自然言語処理技術を統合し、アプリケーションの可能性を高める。
現在の適応アダプティブアテンション手法はトランスフォーマーベースの言語モデルのメモリ要求を大幅に削減する。
我々は、LVLMがリモート画像トークンとローカルテキストトークンの両方から応答を生成し、異なるモダリティが異なる注意パターンを持つのを観察した。
LVLM推論に適したプラグアンドプレイ適応型アダプティブアテンションであるA-VLを開発した。
- 参考スコア(独自算出の注目度): 10.027871150748956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Large Vision-Language Model (LVLM) integrates computer vision and natural language processing techniques, offering substantial application potential. However, these models demand extensive resources during inference. Adaptive attention techniques can dynamically reduce computational redundancy and thus improve efficiency. Although current adaptive attention methods significantly reduce the memory requirements of Transformer-based language models, they are not tailored for LVLMs. We observe that LVLMs generate responses from both remote image tokens and local text tokens, and different modalities have different attention patterns. This observation inspires us to manage the attention for each modality separately. Specifically, for visual input, we store the cache of potentially useful information but only compute the most critical parts. For language input, we care more about local information. Based on our observation and analysis of vision-language attention patterns, we develop A-VL, a plug-and-play adaptive attention tailored for LVLM inference. Extensive evaluations on three vision-language tasks and five datasets show the effectiveness of our designs. Our approach A-VL outperforms existing adaptive attention methods in reducing memory usage and computational load without compromising performance.
- Abstract(参考訳): LVLM(Large Vision-Language Model)は、コンピュータビジョンと自然言語処理技術を統合し、アプリケーションの可能性を高める。
しかし、これらのモデルは推論中に広範囲のリソースを必要とする。
アダプティブアテンダ技術は、動的に計算冗長性を低減し、効率を向上することができる。
現在の適応アダプティブアテンション手法はトランスフォーマーベースの言語モデルのメモリ要求を大幅に削減するが、LVLMには適していない。
我々は、LVLMがリモート画像トークンとローカルテキストトークンの両方から応答を生成し、異なるモダリティが異なる注意パターンを持つのを観察した。
この観察は、各モダリティに対する注意を別々に管理するきっかけとなった。
具体的には、視覚的な入力のために、潜在的に有用な情報のキャッシュを格納するが、最も重要な部分のみを計算する。
言語入力については、ローカル情報にもっと関心があります。
視覚言語による注意パターンの観察と分析に基づいて,LVLM推論に適したプラグアンドプレイ適応型注意パターンであるA-VLを開発した。
3つの視覚言語タスクと5つのデータセットに対する広範囲な評価は、我々の設計の有効性を示している。
我々のアプローチA-VLは、メモリ使用量や計算負荷を減らすため、性能を損なうことなく、既存のアダプティブアダプティブアテンション手法よりも優れている。
関連論文リスト
- ICT: Image-Object Cross-Level Trusted Intervention for Mitigating Object Hallucination in Large Vision-Language Models [32.24716280370563]
ICTは、異なるレベルの視覚情報に焦点を移すための介入方向を計算する軽量でトレーニング不要な手法である。
少量のデータで強力なパフォーマンスを実現し、さまざまなデータセットやモデルにまたがってうまく一般化する。
論文 参考訳(メタデータ) (2024-11-22T12:22:21Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - DeepSeek-VL: Towards Real-World Vision-Language Understanding [24.57011093316788]
本稿では、実世界のビジョンと言語理解アプリケーションのためのオープンソースのVision-Language(VL)モデルであるDeepSeek-VLを紹介する。
当社のアプローチは,3つの重要な側面に基づいて構成されています。
実際のユーザシナリオからユースケース分類を作成し、インストラクションチューニングデータセットを構築します。
論文 参考訳(メタデータ) (2024-03-08T18:46:00Z) - Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。
SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。
本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:54:10Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。