論文の概要: Making Vision Transformers Efficient from A Token Sparsification View
- arxiv url: http://arxiv.org/abs/2303.08685v1
- Date: Wed, 15 Mar 2023 15:12:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:23:54.191919
- Title: Making Vision Transformers Efficient from A Token Sparsification View
- Title(参考訳): トークンスカラー化による視覚変換器の効率化
- Authors: Shuning Chang, Pichao Wang, Ming Lin, Fan Wang, David Junhao Zhang,
Rong Jin, Mike Zheng Shou
- Abstract要約: 本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
クラスタの性質のため、グローバルとローカルの両方のビジョントランスフォーマーにおいて、いくつかのセマンティックトークンは巨大な画像トークンと同じ効果が得られる。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
- 参考スコア(独自算出の注目度): 26.42498120556985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic computational complexity to the number of tokens limits the
practical applications of Vision Transformers (ViTs). Several works propose to
prune redundant tokens to achieve efficient ViTs. However, these methods
generally suffer from (i) dramatic accuracy drops, (ii) application difficulty
in the local vision transformer, and (iii) non-general-purpose networks for
downstream tasks. In this work, we propose a novel Semantic Token ViT (STViT),
for efficient global and local vision transformers, which can also be revised
to serve as backbone for downstream tasks. The semantic tokens represent
cluster centers, and they are initialized by pooling image tokens in space and
recovered by attention, which can adaptively represent global or local semantic
information. Due to the cluster properties, a few semantic tokens can attain
the same effect as vast image tokens, for both global and local vision
transformers. For instance, only 16 semantic tokens on DeiT-(Tiny,Small,Base)
can achieve the same accuracy with more than 100% inference speed improvement
and nearly 60% FLOPs reduction; on Swin-(Tiny,Small,Base), we can employ 16
semantic tokens in each window to further speed it up by around 20% with slight
accuracy increase. Besides great success in image classification, we also
extend our method to video recognition. In addition, we design a
STViT-R(ecover) network to restore the detailed spatial information based on
the STViT, making it work for downstream tasks, which is powerless for previous
token sparsification methods. Experiments demonstrate that our method can
achieve competitive results compared to the original networks in object
detection and instance segmentation, with over 30% FLOPs reduction for
backbone.
- Abstract(参考訳): トークン数に対する二次計算の複雑さは、視覚変換器(ViT)の実用的応用を制限する。
いくつかの研究は、効率的なViTを実現するために冗長トークンをプルークすることを提案する。
しかし これらの手法は一般に
(i)劇的な精度低下。
(ii)局所視覚変換器の応用難しさ、及び
(iii)ダウンストリームタスクのための非汎用ネットワーク。
本研究では,効率的なグローバル・ローカル・ビジョン・トランスフォーマーのための新しいセマンティック・トークンViT (STViT) を提案する。
セマンティックトークンはクラスタセンターを表し、画像トークンを空間にプールすることで初期化され、グローバルまたはローカルなセマンティック情報を適応的に表現することができる。
クラスタ特性のため、グローバルビジョントランスフォーマーとローカルビジョントランスフォーマーの両方において、いくつかのセマンティックトークンは広大なイメージトークンと同じ効果を実現できる。
例えば、DeiT-(Tiny,Small,Base)上の16のセマンティックトークンは、100%以上の推論速度の改善と60%近いFLOPの削減で同じ精度を達成することができる。
画像分類における大きな成功に加え、我々はこの手法をビデオ認識にも拡張する。
さらに,STViTに基づく詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,従来のトークンスカラー化手法では無力な下流タスクに対して機能する。
実験により,本手法は対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できることがわかった。
関連論文リスト
- Vision Transformer with Super Token Sampling [108.45840025513549]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - Global Context Vision Transformers [84.25554653076341]
本稿では,パラメータと計算利用量を高める新しいアーキテクチャであるグローバル・コンテクスト・ビジョン・トランスフォーマー(GC ViT)を提案する。
提案手法は,局所的な自己注意を伴うグローバルなコンテキスト自己注意モジュールを利用して,空間相互作用と短距離相互作用の両方を効果的にモデル化する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。