論文の概要: Artifacts and Attention Sinks: Structured Approximations for Efficient Vision Transformers
- arxiv url: http://arxiv.org/abs/2507.16018v1
- Date: Mon, 21 Jul 2025 19:29:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.863303
- Title: Artifacts and Attention Sinks: Structured Approximations for Efficient Vision Transformers
- Title(参考訳): 人工物と注意シンク:効率的な視覚変換器の構造化近似
- Authors: Andrew Lu, Wentinn Liao, Liuhui Wang, Huzheng Yang, Jianbo Shi,
- Abstract要約: ビジョントランスフォーマーは幅広いアプリケーションにまたがる強力なツールとして登場したが、内部の動作は部分的にしか理解されていない。
大量のトークン – 注目シンクとして機能する極めて高いアクティベーション規範を持つトークン – と,推論中に副産物として現れるアーティファクトトークン – の現象について検討する。
我々は、線形時間と空間における自己注意を近似する訓練不要なFast Nystr"om Attention (FNA)を導入する。
- 参考スコア(独自算出の注目度): 8.486148475471271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers have emerged as a powerful tool across a wide range of applications, yet their inner workings remain only partially understood. In this work, we examine the phenomenon of massive tokens - tokens with exceptionally high activation norms that act as attention sinks - and artifact tokens that emerge as a byproduct during inference. Our analysis reveals that these tokens mutually suppress one another through the attention mechanism, playing a critical role in regulating information flow within the network. Leveraging these insights, we introduce Fast Nystr\"om Attention (FNA), a training-free method that approximates self-attention in linear time and space by exploiting the structured patterns formed by massive and artifact tokens. Additionally, we propose a masking strategy to mitigate noise from these tokens, yielding modest performance gains at virtually no cost. We evaluate our approach on popular pretrained vision backbones and demonstrate competitive performance on retrieval, classification, segmentation, and visual question answering (VQA), all while reducing computational overhead.
- Abstract(参考訳): ビジョントランスフォーマーは、幅広いアプリケーションにまたがる強力なツールとして登場したが、内部の動作は部分的にしか理解されていない。
本研究では,大量のトークン – 注目シンクとして機能する極めて高いアクティベーション規範を持つトークン – と,推論中に副産物として現れるアーティファクトトークン – の現象について検討する。
分析の結果,これらのトークンはアテンション機構を通じて相互に抑制され,ネットワーク内の情報フローを制御する上で重要な役割を担っていることが明らかとなった。
これらの知見を活かしたFast Nystr\"om Attention (FNA)は,大規模かつアーティファクトなトークンによって形成される構造化パターンを活用することで,線形時間と空間における自己注意を近似する訓練自由な手法である。
さらに,これらのトークンからノイズを緩和するマスキング手法を提案する。
我々は、一般的な事前学習された視覚バックボーンに対するアプローチを評価し、検索、分類、セグメンテーション、視覚質問応答(VQA)において、計算オーバーヘッドを低減しながら競合性能を示す。
関連論文リスト
- Attention (as Discrete-Time Markov) Chains [70.46604474584181]
注意行列の新たな解釈を離散時間マルコフ連鎖として導入する。
我々の主な観察は、意味的に類似した領域に対応するトークンが準安定状態の集合を形成することである。
これらの軽量ツールを用いて、最先端のゼロショットセグメンテーションを実証する。
論文 参考訳(メタデータ) (2025-07-23T16:20:47Z) - Token Transforming: A Unified and Training-Free Token Compression Framework for Vision Transformer Acceleration [8.584066042703972]
本稿では,既存のすべてのメソッドを一般化する多対多のToken変換フレームワークを提案する。
具体的には、40%のFLOPを減らし、DeiT-Sを1.5ドル、限界0.1%の精度低下で加速する。
本手法をセグメント化,オブジェクト検出,深さ推定,言語モデル生成など,高密度な予測タスクに拡張する。
論文 参考訳(メタデータ) (2025-06-06T03:18:11Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - STAR: Stage-Wise Attention-Guided Token Reduction for Efficient Large Vision-Language Models Inference [3.9464481148889354]
我々は,グローバルな視点からトークンプルーニングにアプローチする,トレーニングフリーのプラグアンドプレイフレームワークSTAR(Stage-wise Attention-guided token Reduction)を提案する。
単一ポイントでプルーニングする代わりに、STARは視覚的自己注意に基づく早期プルーニングで冗長な低レベル特徴を除去し、タスク非関連トークンを捨てるために、クロスモーダルな注意でガイドされる後期プルーニングという2つの相補的な段階において注意誘導還元を行う。
論文 参考訳(メタデータ) (2025-05-18T10:44:45Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Attention Sinks and Outlier Features: A 'Catch, Tag, and Release' Mechanism for Embeddings [4.30907936718325]
大きな言語モデル(LLM)の2つの顕著な特徴は、大きなノーム(外部)機能の存在と、いくつかのトークンに非常に強く参加する傾向である。
注意シンクは、例えば、トークンのシーケンスをキャッチし、共通の摂動を適用してキャプチャされたトークンをタグ付けし、トークンを残留ストリームに解放する。
論文 参考訳(メタデータ) (2025-02-02T21:15:07Z) - Dynamic Token Reduction during Generation for Vision Language Models [11.376359442815986]
視覚言語モデル(VLM)に適した動的プルーニング戦略を導入する。
提案手法は,注意分布に基づく刈り取り率の柔軟な調整を可能にする。
実験結果から,本手法は計算要求を低減させるだけでなく,応答の質も維持することが示された。
論文 参考訳(メタデータ) (2025-01-24T03:20:37Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。