論文の概要: To Sink or Not to Sink: Visual Information Pathways in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.08510v1
- Date: Thu, 09 Oct 2025 17:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.26262
- Title: To Sink or Not to Sink: Visual Information Pathways in Large Vision-Language Models
- Title(参考訳): リンクするかどうか:大規模視覚言語モデルにおける視覚情報経路
- Authors: Jiayun Luo, Wan-Cyuan Fan, Lyuyang Wang, Xiangteng He, Tanzila Rahman, Purang Abolmaesumi, Leonid Sigal,
- Abstract要約: Vision Transformer (ViT)は、視覚コンテンツを画像トークンのシーケンスにエンコードする。
LLM(Large Language Model)は、これらのトークンを解釈して高レベルの推論を行う。
我々は、ViTアテンションシンク(ViT attention sinks)と呼ばれる、ViTから高北の視覚トークンのクラスを同定する。
- 参考スコア(独自算出の注目度): 34.902254997726835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models (LVLMs) have recently emerged as powerful architectures capable of understanding and reasoning over both visual and textual information. These models typically rely on two key components: a Vision Transformer (ViT) and a Large Language Model (LLM). ViT encodes visual content into a sequence of image tokens and serves as the perceptual front-end -- the eyes of the model. In contrast, the LLM interprets these tokens to perform high-level reasoning, generates responses, and functions as the cognitive core -- the brain of the model. However, it remains unclear which visual tokens contribute most significantly to understanding and reasoning, and how effectively these signals are propagated from ViT to the LLM. While most existing works have focused on identifying attention sinks, low-semantic tokens receiving disproportionately high attention, within the LLM, we shift the focus to the vision encoder by identifying a class of high-norm visual tokens from ViT, referred to as ViT attention sinks -- a problem that has been rarely studied but is indeed very important for LVLMs. Our findings show that these ViT sinks encapsulate high-level semantic concepts from images, allowing the LLM to perform more effective understanding and reasoning. Despite their importance, these sink tokens are often overlooked in existing LVLM architectures. To explore their contribution, we present both qualitative and quantitative analyses of the information embedded in these sink tokens. We also propose both training-free and training-based approaches to better leverage how this information is interpreted by the LLM, and to what extent. By explicitly utilizing these tokens, we demonstrate substantial improvements across a range of LVLMs and visual reasoning tasks, highlighting the untapped potential of ViT attention sinks in enhancing visual reasoning.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、視覚情報とテキスト情報の両方を理解し、推論できる強力なアーキテクチャとして最近登場した。
これらのモデルは一般的にビジョントランスフォーマー(ViT)とLarge Language Model(LLM)の2つの重要なコンポーネントに依存している。
ViTは視覚コンテンツを一連の画像トークンにエンコードし、知覚的なフロントエンド -- モデルの目 -- として機能する。
対照的に、LLMはこれらのトークンを解釈し、高いレベルの推論を行い、反応を生成し、モデルの脳である認知コアとして機能する。
しかし、どの視覚トークンが理解と推論に最も寄与しているか、そしてこれらのシグナルがViTからLLMへどのように効果的に伝播されるかは明らかになっていない。
既存のほとんどの研究は、注意シンクを特定することに重点を置いているが、LLM内では、視覚エンコーダに焦点を移し、ViT(ViT attention sinks)と呼ばれる高ノルムな視覚トークンのクラスを特定している。
以上の結果から,これらのViTシンクは画像から高レベルのセマンティック概念をカプセル化しており,LLMはより効果的な理解と推論を行うことができることがわかった。
その重要性にもかかわらず、これらのシンクトークンは既存のLVLMアーキテクチャでは見過ごされがちである。
これらの寄与を探求するため,これらのシンクトークンに埋め込まれた情報の質的および定量的解析を行った。
また、この情報をLLMによってどのように解釈するかをよりよく活用するために、トレーニングフリーとトレーニングベースの両方のアプローチを提案する。
これらのトークンを明示的に活用することにより、視覚的推論の強化におけるViT注意シンクの未解決の可能性を強調し、様々なLVLMや視覚的推論タスクにおいて大幅な改善を示す。
関連論文リスト
- HERO: Rethinking Visual Token Early Dropping in High-Resolution Large Vision-Language Models [60.028070589466445]
本稿では,コンテンツ適応型トークン予算配分と関数対応トークン選択を統合したフレームワークHEROを提案する。
本研究は、HR-LVLMにおける効率的な推論に対する経験的洞察と実践的解決策の両方を提供する。
論文 参考訳(メタデータ) (2025-09-16T13:22:08Z) - PAINT: Paying Attention to INformed Tokens to Mitigate Hallucination in Large Vision-Language Model [0.0]
幻覚は、しばしば注意重みの進歩的な弱体化から視覚的トークンへと生じる。
textbfPAINT (textbfPaying textbfAttention to textbfINformed textbfTokens) は、大規模視覚言語モデルの自己保持機構を介するプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge [24.538839144639653]
LVLM(Large Vision-Language Models)は、学習済みのビジョンと言語コンポーネントを個別に統合する。
これらのモデルはしばしば、視覚エンコーダ(VE)と大言語モデル(LLM)の「認知的不整合」の中核的な問題に遭遇する。
論文 参考訳(メタデータ) (2024-11-25T18:33:14Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。