論文の概要: See What You Are Told: Visual Attention Sink in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2503.03321v1
- Date: Wed, 05 Mar 2025 09:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:26.797465
- Title: See What You Are Told: Visual Attention Sink in Large Multimodal Models
- Title(参考訳): 巨大なマルチモーダルモデルにおける視覚的注意シンク
- Authors: Seil Kang, Jinyeong Kim, Junhyeok Kim, Seong Jae Hwang,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、トランスフォーマーデコーダにおけるテキストと視覚トークン間の注意機構を活用することで、イメージを「見る」。
最近の知見は、LMMは特定の視覚トークンに常に高い注意重みを割り当てる異常な傾向にあることを示している。
本稿では、画像中心の頭部における注意を再分配する視覚的注意再分配(VAR)について紹介する。
- 参考スコア(独自算出の注目度): 4.024850952459758
- License:
- Abstract: Large multimodal models (LMMs) "see" images by leveraging the attention mechanism between text and visual tokens in the transformer decoder. Ideally, these models should focus on key visual information relevant to the text token. However, recent findings indicate that LMMs have an extraordinary tendency to consistently allocate high attention weights to specific visual tokens, even when these tokens are irrelevant to the corresponding text. In this study, we investigate the property behind the appearance of these irrelevant visual tokens and examine their characteristics. Our findings show that this behavior arises due to the massive activation of certain hidden state dimensions, which resembles the attention sink found in language models. Hence, we refer to this phenomenon as the visual attention sink. In particular, our analysis reveals that removing the irrelevant visual sink tokens does not impact model performance, despite receiving high attention weights. Consequently, we recycle the attention to these tokens as surplus resources, redistributing the attention budget to enhance focus on the image. To achieve this, we introduce Visual Attention Redistribution (VAR), a method that redistributes attention in image-centric heads, which we identify as innately focusing on visual information. VAR can be seamlessly applied across different LMMs to improve performance on a wide range of tasks, including general vision-language tasks, visual hallucination tasks, and vision-centric tasks, all without the need for additional training, models, or inference steps. Experimental results demonstrate that VAR enables LMMs to process visual information more effectively by adjusting their internal attention mechanisms, offering a new direction to enhancing the multimodal capabilities of LMMs.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、トランスフォーマーデコーダにおけるテキストと視覚トークン間の注意機構を活用することで、イメージを「見る」。
理想的には、これらのモデルはテキストトークンに関連する重要な視覚情報に焦点を当てるべきである。
しかし,近年の研究では,これらのトークンが対応するテキストと無関係である場合でも,LMMは特定の視覚トークンに対して常に高い注意重みを割り当てる傾向にあることが示唆されている。
本研究では,これら無関係な視覚トークンの出現の背後にある特性について検討し,その特性について検討する。
本研究は, 言語モデルに見られる注意シンクに類似した, 特定の隠れ状態次元の大量活性化により, この挙動が生じることを示す。
したがって、この現象を視覚的注意シンクと呼ぶ。
特に,無関係な視覚的シンクトークンの除去は,注目度が高いにもかかわらず,モデル性能に影響を及ぼさないことが明らかとなった。
その結果、これらのトークンに対する注意を余剰資源として再利用し、画像への注目を高めるために注意予算を再分配する。
これを実現するために,視覚情報に着目した画像中心の頭部における注意を再分配する視覚的注意再分配(VAR)を導入する。
VARは様々なLMMでシームレスに適用でき、一般的な視覚言語タスク、視覚幻覚タスク、視覚中心タスクなど、幅広いタスクのパフォーマンスを向上させることができる。
実験結果から、VARは内部の注意機構を調整し、LMMのマルチモーダル能力を高めるための新たな方向性を提供することにより、視覚情報をより効果的に処理できることを示した。
関連論文リスト
- AdaFV: Rethinking of Visual-Language alignment for VLM acceleration [7.9213473377478865]
偏りのあるVLMの自己アテンションに応じて視覚トークンを減らすいくつかのアプローチは、不正確な応答をもたらす。
本稿では,視覚的満足度とテキスト・ツー・イメージの類似性の有効性を動的に活用する,自己適応型クロスモーダリティ・アテンション・ミックス機構を提案する。
提案手法は,特に縮小速度が十分に大きい場合,最先端のトレーニング不要なVLM加速性能を実現する。
論文 参考訳(メタデータ) (2025-01-16T13:34:33Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - What's in the Image? A Deep-Dive into the Vision of Vision Language Models [20.669971132114195]
VLM(Vision-Language Models)は、最近、複雑な視覚コンテンツを解釈する際、顕著な能力を示した。
本稿では,各層にまたがるアテンションモジュールに着目し,徹底的な経験分析を行う。
これらのモデルが視覚データをどのように処理するかについて、いくつかの重要な洞察を明らかにします。
論文 参考訳(メタデータ) (2024-11-26T14:59:06Z) - Shifting Focus with HCEye: Exploring the Dynamics of Visual Highlighting and Cognitive Load on User Attention and Saliency Prediction [3.2873782624127834]
本稿では,視覚強調(永続的・動的)と両タスクによる認知負荷が視線行動に及ぼす影響について検討する。
認知負荷の異なる場合、最先端のサリエンシモデルにより、その性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-22T14:45:30Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。