論文の概要: Castling-ViT: Compressing Self-Attention via Switching Towards
Linear-Angular Attention at Vision Transformer Inference
- arxiv url: http://arxiv.org/abs/2211.10526v4
- Date: Sat, 13 Jan 2024 03:05:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 03:32:09.170481
- Title: Castling-ViT: Compressing Self-Attention via Switching Towards
Linear-Angular Attention at Vision Transformer Inference
- Title(参考訳): Castling-ViT:視覚変換器推論における線形角アテンションへの切り替えによる自己注意の圧縮
- Authors: Haoran You, Yunyang Xiong, Xiaoliang Dai, Bichen Wu, Peizhao Zhang,
Haoqi Fan, Peter Vajda, Yingyan Lin
- Abstract要約: 視覚変換器(ViT)は優れた性能を示しているが、畳み込みニューラルネットワーク(CNN)と比較して計算コストは高い。
既存の効率的なViTは局所的な注意(例えば、スウィン)または線形の注意(例えば、Performer)を採用する。
線形角の注意とマスキングソフトマックスに基づく二次の注意の両方を用いてViTを訓練するCastling-ViTというフレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.99150370145814
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Transformers (ViTs) have shown impressive performance but still
require a high computation cost as compared to convolutional neural networks
(CNNs), one reason is that ViTs' attention measures global similarities and
thus has a quadratic complexity with the number of input tokens. Existing
efficient ViTs adopt local attention (e.g., Swin) or linear attention (e.g.,
Performer), which sacrifice ViTs' capabilities of capturing either global or
local context. In this work, we ask an important research question: Can ViTs
learn both global and local context while being more efficient during
inference? To this end, we propose a framework called Castling-ViT, which
trains ViTs using both linear-angular attention and masked softmax-based
quadratic attention, but then switches to having only linear angular attention
during ViT inference. Our Castling-ViT leverages angular kernels to measure the
similarities between queries and keys via spectral angles. And we further
simplify it with two techniques: (1) a novel linear-angular attention
mechanism: we decompose the angular kernels into linear terms and high-order
residuals, and only keep the linear terms; and (2) we adopt two parameterized
modules to approximate high-order residuals: a depthwise convolution and an
auxiliary masked softmax attention to help learn both global and local
information, where the masks for softmax attention are regularized to gradually
become zeros and thus incur no overhead during ViT inference. Extensive
experiments and ablation studies on three tasks consistently validate the
effectiveness of the proposed Castling-ViT, e.g., achieving up to a 1.8% higher
accuracy or 40% MACs reduction on ImageNet classification and 1.2 higher mAP on
COCO detection under comparable FLOPs, as compared to ViTs with vanilla
softmax-based attentions.
- Abstract(参考訳): 視覚変換器(ViT)は優れた性能を示しているが、畳み込みニューラルネットワーク(CNN)と比較して高い計算コストを必要とする。
既存の効率的なViTは局所的な注意(Swinなど)や線形的な注意(Performerなど)を採用しており、これはViTがグローバルまたはローカルなコンテキストをキャプチャする能力を犠牲にする。
この研究において、vitsは、推論中により効率的でありながら、グローバルコンテキストとローカルコンテキストの両方を学ぶことができるか?
そこで本稿では,VT を線形角注意とマスク付きソフトマックス2次注意の両方を用いて訓練する Castling-ViT というフレームワークを提案する。
当社のcastling-vitは角カーネルを利用して,クエリとキーの類似度をスペクトル角で測定します。
And we further simplify it with two techniques: (1) a novel linear-angular attention mechanism: we decompose the angular kernels into linear terms and high-order residuals, and only keep the linear terms; and (2) we adopt two parameterized modules to approximate high-order residuals: a depthwise convolution and an auxiliary masked softmax attention to help learn both global and local information, where the masks for softmax attention are regularized to gradually become zeros and thus incur no overhead during ViT inference.
3つのタスクに関する広範な実験とアブレーションの研究は、提案するキャスティング・ヴィットの有効性を一貫して検証している。例えば、画像ネットの分類において最大1.8%の精度と40%のmacs削減を達成し、同等のフロップでcoco検出時の1.2倍のマップを、バニラソフトマックスに基づくvitsと比較した。
関連論文リスト
- GvT: A Graph-based Vision Transformer with Talking-Heads Utilizing Sparsity, Trained from Scratch on Small Datasets [1.1586742546971471]
グラフ畳み込みプロジェクションとグラフプーリングを利用するグラフベースビジョントランス (GvT) を提案する。
GvTは、大規模なデータセットを事前トレーニングすることなく、深層畳み込みネットワークに匹敵する、あるいは優れた結果をもたらす。
論文 参考訳(メタデータ) (2024-04-07T11:48:07Z) - From Saliency to DINO: Saliency-guided Vision Transformer for Few-shot
Keypoint Detection [36.9781808268263]
FSKD(Few-shot Keypoint Detection)は、参照サンプルに応じて、新規またはベースキーポイントを含むキーポイントをローカライズする。
FSKDは、ユビキタスノイズと曖昧な局所パターンを克服するために、キーポイント類似性学習に意味論的に意味のある関係を必要とする。
数発のキーポイント検出のための新しいサリエンシ誘導型視覚変換器であるSalViTを提案する。
論文 参考訳(メタデータ) (2023-04-06T15:22:34Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - ViTALiTy: Unifying Low-rank and Sparse Approximation for Vision
Transformer Acceleration with a Linear Taylor Attention [23.874485033096917]
Vision Transformer (ViT)は、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワークの競合代替として登場した。
そこで本研究では,VitaliTy という,VT の推論効率向上のためのハードウェア設計フレームワークを提案する。
ViTALiTyは、ViTにおける注目の低ランクとスパースの両方のコンポーネントを統合する。
論文 参考訳(メタデータ) (2022-11-09T18:58:21Z) - LightViT: Towards Light-Weight Convolution-Free Vision Transformers [43.48734363817069]
視覚変換器(ViT)は通常、畳み込みニューラルネットワーク(CNN)よりも軽量であると考えられている
コンボリューションを伴わない純粋な変圧器ブロック上での精度・効率バランスを改善するために,LightViT を軽量 ViT の新たなファミリとして提案する。
実験により,本モデルは画像分類,オブジェクト検出,セマンティックセグメンテーションタスクにおいて大幅な改善が得られた。
論文 参考訳(メタデータ) (2022-07-12T14:27:57Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。