論文の概要: When Attention Collapses: Stage-Aware Visual Token Pruning from Structure to Semantics
- arxiv url: http://arxiv.org/abs/2606.03569v1
- Date: Tue, 02 Jun 2026 12:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.998003
- Title: When Attention Collapses: Stage-Aware Visual Token Pruning from Structure to Semantics
- Title(参考訳): 注意の崩壊: 構造からセマンティックスへの切り抜きを段階的に認識する
- Authors: Jiahui Wang, Kai Zhang, Mai Han, Huanghe Zhang,
- Abstract要約: 本稿では,新しい2段階の視覚トークン解析フレームワークであるStructure-to-Semantics(STS)を紹介する。
第1段階では、空間的および構造的多様性を最大化するために、反発に基づくサンプリング機構を採用している。
第2段階は命令対応のクロスアテンションを利用して、プロンプト非関連トークンを正確にフィルタリングする。
- 参考スコア(独自算出の注目度): 14.506581918176478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated remarkable capabilities but suffer from significant computational overhead during inference. While visual token pruning offers a promising solution, existing methods predominantly rely on initial attention scores. This single-metric paradigm presents a critical flaw: high attention scores inherently collapse onto semantically similar regions, thereby severely reducing feature diversity and discarding vital contextual details. To address this, we introduce Structure-to-Semantics (STS), a novel two-stage visual token pruning framework that explicitly decouples the pruning process. The first stage employs a repulsion-based sampling mechanism to maximize spatial and structural diversity. The second stage leverages instruction-aware cross-attention to precisely filter out prompt-irrelevant tokens. This two-stage synergy constitutes the core of STS, first ensuring geometric coverage and then refining the retained tokens according to semantic relevance. Extensive evaluations demonstrate that STS mitigates the redundancy caused by attention-based selection, improving both structural diversity and fine-grained task alignment of the preserved visual tokens.
- Abstract(参考訳): VLM(Vision-Language Models)は目覚ましい能力を示すが、推論中にかなりの計算オーバーヘッドに悩まされている。
ビジュアルトークンのプルーニングは有望な解決策を提供するが、既存のメソッドは主に初期注意スコアに依存している。
注意スコアは本質的に意味的に類似した領域に崩壊し、特徴の多様性を著しく減らし、重要な文脈の詳細を捨てる。
これを解決するために,新しい2段階の視覚トークンプルーニングフレームワークであるStructure-to-Semantics (STS)を紹介した。
第1段階では、空間的および構造的多様性を最大化するために、反発に基づくサンプリング機構を採用している。
第2段階は命令対応のクロスアテンションを利用して、プロンプト非関連トークンを正確にフィルタリングする。
この2段階のシナジーはSTSのコアを構成し、まず幾何学的カバレッジを確保し、その後意味的関連性に応じて保持されたトークンを精製する。
広範囲な評価により、STSは注意に基づく選択によって引き起こされる冗長性を緩和し、保存された視覚トークンの構造的多様性ときめ細かいタスクアライメントを改善した。
関連論文リスト
- Focus-then-Context: Subject-Centric Progressive Visual Token Reduction for Vision-Language Models [16.39553879497114]
SPprunerは主題中心のプログレッシブ・リダクション・パラダイムである。
人間の視覚知覚システムのtextitFocus-then-Contextメカニズムをエミュレートする。
視覚入力の高忠実度表現を保証するために、包括的視覚被写体スペクトルを掘削することができる。
論文 参考訳(メタデータ) (2026-05-20T09:37:53Z) - Evading Visual Aphasia: Contrastive Adaptive Semantic Token Pruning for Vision-Language Models [52.78477729846771]
本稿では,COAST(Contrastive Adaptive Semantic Token Pruning)について紹介する。
COASTはトークン予算をまたいだ強力なプルーニングベースラインを一貫して上回り、複数のLVLMファミリをまたいだ一般化を実現している。
論文 参考訳(メタデータ) (2026-05-10T09:07:04Z) - Beyond Static Visual Tokens: Structured Sequential Visual Chain-of-Thought Reasoning [8.10005273393957]
構造系列型ビジュアルCoT SSV-CoTを提案する。
まず,重要な視覚領域を特定し整理し,視覚的重要性の空間分布を明示的にモデル化する。
第二に、この識別順序に従って推論が行われ、一次から二次へとカリキュラムのようなセマンティックな進行を誘導する。
論文 参考訳(メタデータ) (2026-03-21T20:13:15Z) - Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation [23.546777614096424]
ショーショットセグメンテーション(FSS)は、限られた監督力を持つ新しいクラスに一般化する能力において大きな注目を集めている。
本稿では、クラス固有のプロトタイプを洗練するための構造的一貫性と識別をモデル化する統合フレームワークであるVINEを導入することにより、これらの課題に対処する。
論文 参考訳(メタデータ) (2026-03-06T06:36:42Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。