論文の概要: Making Vision Transformers Efficient from A Token Sparsification View
- arxiv url: http://arxiv.org/abs/2303.08685v2
- Date: Thu, 30 Mar 2023 11:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 16:45:03.611201
- Title: Making Vision Transformers Efficient from A Token Sparsification View
- Title(参考訳): トークンスカラー化による視覚変換器の効率化
- Authors: Shuning Chang, Pichao Wang, Ming Lin, Fan Wang, David Junhao Zhang,
Rong Jin, Mike Zheng Shou
- Abstract要約: 本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
- 参考スコア(独自算出の注目度): 26.42498120556985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic computational complexity to the number of tokens limits the
practical applications of Vision Transformers (ViTs). Several works propose to
prune redundant tokens to achieve efficient ViTs. However, these methods
generally suffer from (i) dramatic accuracy drops, (ii) application difficulty
in the local vision transformer, and (iii) non-general-purpose networks for
downstream tasks. In this work, we propose a novel Semantic Token ViT (STViT),
for efficient global and local vision transformers, which can also be revised
to serve as backbone for downstream tasks. The semantic tokens represent
cluster centers, and they are initialized by pooling image tokens in space and
recovered by attention, which can adaptively represent global or local semantic
information. Due to the cluster properties, a few semantic tokens can attain
the same effect as vast image tokens, for both global and local vision
transformers. For instance, only 16 semantic tokens on DeiT-(Tiny,Small,Base)
can achieve the same accuracy with more than 100% inference speed improvement
and nearly 60% FLOPs reduction; on Swin-(Tiny,Small,Base), we can employ 16
semantic tokens in each window to further speed it up by around 20% with slight
accuracy increase. Besides great success in image classification, we also
extend our method to video recognition. In addition, we design a
STViT-R(ecover) network to restore the detailed spatial information based on
the STViT, making it work for downstream tasks, which is powerless for previous
token sparsification methods. Experiments demonstrate that our method can
achieve competitive results compared to the original networks in object
detection and instance segmentation, with over 30% FLOPs reduction for
backbone. Code is available at http://github.com/changsn/STViT-R
- Abstract(参考訳): トークン数に対する二次計算の複雑さは、視覚変換器(ViT)の実用的応用を制限する。
いくつかの研究は、効率的なViTを実現するために冗長トークンをプルークすることを提案する。
しかし これらの手法は一般に
(i)劇的な精度低下。
(ii)局所視覚変換器の応用難しさ、及び
(iii)ダウンストリームタスクのための非汎用ネットワーク。
本研究では,効率的なグローバル・ローカル・ビジョン・トランスフォーマーのための新しいセマンティック・トークンViT (STViT) を提案する。
セマンティックトークンはクラスタセンターを表し、画像トークンを空間にプールすることで初期化され、グローバルまたはローカルなセマンティック情報を適応的に表現することができる。
クラスタ特性のため、グローバルビジョントランスフォーマーとローカルビジョントランスフォーマーの両方において、いくつかのセマンティックトークンは広大なイメージトークンと同じ効果を実現できる。
例えば、DeiT-(Tiny,Small,Base)上の16のセマンティックトークンは、100%以上の推論速度の改善と60%近いFLOPの削減で同じ精度を達成することができる。
画像分類における大きな成功に加え、我々はこの手法をビデオ認識にも拡張する。
さらに,STViTに基づく詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,従来のトークンスカラー化手法では無力な下流タスクに対して機能する。
実験により,本手法は対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できることがわかった。
コードはhttp://github.com/changsn/STViT-Rで入手できる。
関連論文リスト
- TCFormer: Visual Recognition via Token Clustering Transformer [79.24723479088097]
本稿では,意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。
ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
論文 参考訳(メタデータ) (2024-07-16T02:26:18Z) - GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation [30.343504537684755]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野に革命をもたらしたが、リソースに制約のあるデバイスへの展開は依然として困難である。
ViTを高速化するために、トークンのプルーニングとトークンのマージアプローチが開発され、計算に関わるトークンの数を減らすことを目的としている。
本稿では,効率的なViTのためのモデル効率と情報保存のバランスをとることの課題を解決するために,グラフベースの新しいToken Propagation(GTP)手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T11:14:19Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。