論文の概要: When Sinks Help or Hurt: Unified Framework for Attention Sink in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.03316v1
- Date: Wed, 01 Apr 2026 09:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.504145
- Title: When Sinks Help or Hurt: Unified Framework for Attention Sink in Large Vision-Language Models
- Title(参考訳): リンクが助けまたは助けになるとき:大規模視覚言語モデルにおける注意シンクのための統一フレームワーク
- Authors: Jiho Choi, Jaemin Kim, Sanghwan Kim, Seunghoon Hong, Jin-Hwi Park,
- Abstract要約: 本稿ではまず視覚的シンクをV-シンク(V-シンク)とLLM-emergedシンク(L-シンク)の2つの異なるカテゴリに分類する。
本稿では,Vシンクとその他の視覚トークンの注目度を動的にスケールする軽量なプラグアンドプレイモジュールであるLayer-wise Sink Gating (LSG)を提案する。
- 参考スコア(独自算出の注目度): 36.88302523716978
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Attention sinks are defined as tokens that attract disproportionate attention. While these have been studied in single modality transformers, their cross-modal impact in Large Vision-Language Models (LVLM) remains largely unexplored: are they redundant artifacts or essential global priors? This paper first categorizes visual sinks into two distinct categories: ViT-emerged sinks (V-sinks), which propagate from the vision encoder, and LLM-emerged sinks (L-sinks), which arise within deep LLM layers. Based on the new definition, our analysis reveals a fundamental performance trade-off: while sinks effectively encode global scene-level priors, their dominance can suppress the fine-grained visual evidence required for local perception. Furthermore, we identify specific functional layers where modulating these sinks most significantly impacts downstream performance. To leverage these insights, we propose Layer-wise Sink Gating (LSG), a lightweight, plug-and-play module that dynamically scales the attention contributions of V-sink and the rest visual tokens. LSG is trained via standard next-token prediction, requiring no task-specific supervision while keeping the LVLM backbone frozen. In most layers, LSG yields improvements on representative multimodal benchmarks, effectively balancing global reasoning and precise local evidence.
- Abstract(参考訳): 注意シンクは不均等な注意を引き付けるトークンとして定義される。
これらは単一のモダリティ変換器で研究されているが、LVLM(Large Vision-Language Models)における相互モーダルな影響はほとんど未解明のままである。
本稿では、まず視覚的シンクを視覚エンコーダから伝播するV-シンク(V-シンク)と、深層LLM層内で発生するLLM-emerged sink(L-シンク)の2つの異なるカテゴリに分類する。
新しい定義に基づいて,本研究では,世界レベルのシーンレベルの先行情報を効果的に符号化する一方で,その優位性は局所的な知覚に必要なきめ細かい視覚的証拠を抑えることができるという,基本的な性能トレードオフを明らかにした。
さらに、これらのシンクを変調する特定の機能層は、下流の性能に最も大きな影響を及ぼす。
これらの知見を活用するために、我々は、Vシンクとその他の視覚トークンの注意を動的にスケールする軽量なプラグアンドプレイモジュールであるLayer-wise Sink Gating (LSG)を提案する。
LSGは標準の次点予測によって訓練され、LVLMのバックボーンを凍結させながらタスク固有の監督を必要としない。
ほとんどの層では、LSGは代表的マルチモーダルベンチマークの改善をもたらし、グローバルな推論と正確な局所的な証拠を効果的にバランスさせる。
関連論文リスト
- On the Nature of Attention Sink that Shapes Decoding Strategy in MLLMs [38.05844382560401]
OutRoはシンクトークンを利用してコンテキスト表現を強化する軽量な推論時間戦略である。
実験に基づいて、OutRoは7つのビデオQAベンチマークで代表MLLMのパフォーマンスを一貫して改善する。
論文 参考訳(メタデータ) (2026-03-15T12:05:35Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - Understanding and Enhancing Encoder-based Adversarial Transferability against Large Vision-Language Models [19.899086203883254]
大規模視覚言語モデル (LVLM) は、マルチモーダルタスクで顕著な成功を収めた。
視覚的な入力への依存は、大きな敵の脅威に晒される。
既存のエンコーダベースの攻撃は、LVLM全体ではなく、視覚エンコーダのみに最適化することで、入力画像を摂動させる。
本研究は,LVLMにおけるエンコーダを用いた対向転送性に関する最初の体系的研究である。
論文 参考訳(メタデータ) (2026-02-10T05:51:02Z) - To Sink or Not to Sink: Visual Information Pathways in Large Vision-Language Models [34.902254997726835]
Vision Transformer (ViT)は、視覚コンテンツを画像トークンのシーケンスにエンコードする。
LLM(Large Language Model)は、これらのトークンを解釈して高レベルの推論を行う。
我々は、ViTアテンションシンク(ViT attention sinks)と呼ばれる、ViTから高北の視覚トークンのクラスを同定する。
論文 参考訳(メタデータ) (2025-10-09T17:44:42Z) - Spectral Insights into Data-Oblivious Critical Layers in Large Language Models [7.486925126518052]
我々は,事前調整言語モデルにおいて,本質的な臨界層を特定するためのデータ公開アプローチを提案する。
表現空間が著しく変化する層も微調整時に最も影響を受ける層であることを示す。
論文 参考訳(メタデータ) (2025-05-31T04:21:39Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。