論文の概要: SPOT: Sparsification with Attention Dynamics via Token Relevance in Vision Transformers
- arxiv url: http://arxiv.org/abs/2511.10488v1
- Date: Fri, 14 Nov 2025 01:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.891657
- Title: SPOT: Sparsification with Attention Dynamics via Token Relevance in Vision Transformers
- Title(参考訳): SPOT:視覚変換器のトークン関連性による注意ダイナミクスによるスパシフィケーション
- Authors: Oded Schlesinger, Amirhossein Farzam, J. Matias Di Martino, Guillermo Sapiro,
- Abstract要約: 視覚変換器(ViT)内の冗長トークンを早期に検出するためのフレームワークとして,Token Relevance (SPOT) を用いた attentiOn dynamics を用いたSParsification を提案する。
SPOTはトークンスペーシフィケーションを通知し、そのようなトークンを除去し、性能を犠牲にすることなく計算効率を向上させる。
実験による評価では、通常のViTに比べて40%の効率向上が見られた。
- 参考スコア(独自算出の注目度): 9.24617274894642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision Transformers (ViT) have demonstrated remarkable performance across diverse tasks, their computational demands are substantial, scaling quadratically with the number of processed tokens. Compact attention representations, reflecting token interaction distributions, can guide early detection and reduction of less salient tokens prior to attention computation. Motivated by this, we present SParsification with attentiOn dynamics via Token relevance (SPOT), a framework for early detection of redundant tokens within ViTs that leverages token embeddings, interactions, and attention dynamics across layers to infer token importance, resulting in a more context-aware and interpretable relevance detection process. SPOT informs token sparsification and facilitates the elimination of such tokens, improving computational efficiency without sacrificing performance. SPOT employs computationally lightweight predictors that can be plugged into various ViT architectures and learn to derive effective input-specific token prioritization across layers. Its versatile design supports a range of performance levels adaptable to varying resource constraints. Empirical evaluations demonstrate significant efficiency gains of up to 40% compared to standard ViTs, while maintaining or even improving accuracy. Code and models are available at https://github.com/odedsc/SPOT .
- Abstract(参考訳): Vision Transformers (ViT) は様々なタスクにまたがって顕著な性能を示してきたが、その計算要求はかなり大きく、処理されたトークンの数と2次的にスケールしている。
トークンの相互作用分布を反映したコンパクトなアテンション表現は、アテンション計算に先立って、早期発見と少ないサルエントトークンの削減を導くことができる。
そこで我々は,トークンの埋め込み,インタラクション,およびトークンの重要性を推論するために層間における注意のダイナミクスを利用した,トークンの重複を早期に検出するフレームワークであるToken Relevance (SPOT) を用いた attentiOn dynamics を提案する。
SPOTはトークンスペーシフィケーションを通知し、そのようなトークンを除去し、性能を犠牲にすることなく計算効率を向上させる。
SPOTは計算量的に軽量な予測器を使用し、様々なViTアーキテクチャに接続し、レイヤ間で効果的な入力固有のトークン優先順位付けを導出することを学ぶ。
その汎用設計は、様々なリソース制約に適応できる様々なパフォーマンスレベルをサポートする。
実験による評価では、標準のViTに比べて40%の効率向上を示し、精度を維持または改善した。
コードとモデルはhttps://github.com/odedsc/SPOT で公開されている。
関連論文リスト
- ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。
本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。
我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-01T12:49:16Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Sparsifiner: Learning Sparse Instance-Dependent Attention for Efficient
Vision Transformers [34.19166698049552]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、パフォーマンス面での競争上の優位性を示している。
本稿では、軽量接続予測モジュールを考案し、インスタンス依存の注意パターンを学習するための新しいアプローチを提案する。
その結果,MHSAでは48%から69%のFLOPが減少し,精度は0.4%に低下した。
論文 参考訳(メタデータ) (2023-03-24T02:12:28Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。