論文の概要: Sparsifiner: Learning Sparse Instance-Dependent Attention for Efficient
Vision Transformers
- arxiv url: http://arxiv.org/abs/2303.13755v1
- Date: Fri, 24 Mar 2023 02:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 16:02:43.911235
- Title: Sparsifiner: Learning Sparse Instance-Dependent Attention for Efficient
Vision Transformers
- Title(参考訳): Sparsifiner: 効率的な視覚変換器のためのスパースインスタンス依存注意学習
- Authors: Cong Wei and Brendan Duke and Ruowei Jiang and Parham Aarabi and
Graham W. Taylor and Florian Shkurti
- Abstract要約: ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、パフォーマンス面での競争上の優位性を示している。
本稿では、軽量接続予測モジュールを考案し、インスタンス依存の注意パターンを学習するための新しいアプローチを提案する。
その結果,MHSAでは48%から69%のFLOPが減少し,精度は0.4%に低下した。
- 参考スコア(独自算出の注目度): 34.19166698049552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViT) have shown their competitive advantages
performance-wise compared to convolutional neural networks (CNNs) though they
often come with high computational costs. To this end, previous methods explore
different attention patterns by limiting a fixed number of spatially nearby
tokens to accelerate the ViT's multi-head self-attention (MHSA) operations.
However, such structured attention patterns limit the token-to-token
connections to their spatial relevance, which disregards learned semantic
connections from a full attention mask. In this work, we propose a novel
approach to learn instance-dependent attention patterns, by devising a
lightweight connectivity predictor module to estimate the connectivity score of
each pair of tokens. Intuitively, two tokens have high connectivity scores if
the features are considered relevant either spatially or semantically. As each
token only attends to a small number of other tokens, the binarized
connectivity masks are often very sparse by nature and therefore provide the
opportunity to accelerate the network via sparse computations. Equipped with
the learned unstructured attention pattern, sparse attention ViT (Sparsifiner)
produces a superior Pareto-optimal trade-off between FLOPs and top-1 accuracy
on ImageNet compared to token sparsity. Our method reduces 48% to 69% FLOPs of
MHSA while the accuracy drop is within 0.4%. We also show that combining
attention and token sparsity reduces ViT FLOPs by over 60%.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)と比較してパフォーマンス面での競争上の優位性を示しているが、高い計算コストが伴うことが多い。
この目的のために,vitのマルチヘッドセルフアテンション(multi-head self-attention, mhsa)操作を高速化するために,空間的に近接するトークンの数を制限し,様々な注意パターンを探索した。
しかし、そのような構造化された注意パターンは、その空間的関連性に対するトークン対token接続を制限し、完全な注意マスクから意味的関係を無視する。
本研究では,軽量な接続予測モジュールを考案し,各トークンの接続スコアを推定することで,インスタンス依存の注意パターンを学習する新しい手法を提案する。
直感的には、2つのトークンは、その特徴が空間的または意味的に関連があると考えられる場合、高い接続性スコアを持つ。
各トークンは他の少数のトークンにしか対応しないため、双有線接続マスクは本質的に非常に疎いため、スパース計算によってネットワークを加速する機会を与える。
学習された未構造化の注意パターンと合わせて、スパークアテンションViT(Sparsifiner)は、トークンの間隔と比較して、ImageNet上のFLOPとトップ1の精度との間に優れたパレート最適トレードオフを生成する。
MHSAの48%から69%のFLOPを削減し, 精度は0.4%以内である。
また、注意とトークンの間隔を組み合わせることで、ViT FLOPsが60%以上減少することを示す。
関連論文リスト
- ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Learning Feature Matching via Matchable Keypoint-Assisted Graph Neural
Network [52.29330138835208]
画像のペア間の局所的な特徴の正確なマッチングは、コンピュータビジョンの課題である。
従来の研究では、注意に基づくグラフニューラルネットワーク(GNN)と、画像内のキーポイントに完全に接続されたグラフを使用するのが一般的だった。
本稿では,非繰り返しキーポイントをバイパスし,マッチング可能なキーポイントを利用してメッセージパッシングを誘導する,疎注意に基づくGNNアーキテクチャであるMaKeGNNを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:50:44Z) - Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。
より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。
提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文 参考訳(メタデータ) (2023-06-08T02:58:15Z) - Robustifying Token Attention for Vision Transformers [72.07710236246285]
ビジョントランスフォーマー(ViT)は、一般的な汚職の存在下でも精度が著しく低下している。
本稿では,2つの一般的な手法を用いて,より注意を安定させる2つの手法を提案する。
まず,Token-Aware Average Pooling (TAP)モジュールは,各トークンの局所的近傍に注意機構に参加することを奨励する。
第二に、出力トークンは、ほんの少しだけに集中するのではなく、多様な入力トークンの集合から情報を集約するように強制する。
論文 参考訳(メタデータ) (2023-03-20T14:04:40Z) - Breaking BERT: Evaluating and Optimizing Sparsified Attention [13.529939025511242]
一連のアブレーション実験により,スペーシフィケーションパターンの影響を評価した。
また,少なくとも78%のスパースを有する注意を用いても,後続の変圧器層に適用した場合,性能にはほとんど影響を与えないことがわかった。
論文 参考訳(メタデータ) (2022-10-07T22:32:27Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。
提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文 参考訳(メタデータ) (2021-05-28T06:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。