論文の概要: Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer
- arxiv url: http://arxiv.org/abs/2108.01390v2
- Date: Wed, 4 Aug 2021 13:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 10:56:51.273387
- Title: Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer
- Title(参考訳): evo-vit: ダイナミックビジョントランスフォーマーのための低速トークン進化
- Authors: Yifan Xu, Zhijie Zhang, Mengdan Zhang, Kekai Sheng, Ke Li, Weiming
Dong, Liqing Zhang, Changsheng Xu, Xing Sun
- Abstract要約: 本稿では,視覚変換器の自己モチベーションの遅いトークン進化手法であるEvo-ViTを提案する。
本手法は,画像分類において同等の性能を維持しつつ,視覚変換器の計算コストを大幅に削減することができる。
- 参考スコア(独自算出の注目度): 63.99222215387881
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Vision transformers have recently received explosive popularity, but the huge
computational cost is still a severe issue. Recent efficient designs for vision
transformers follow two pipelines, namely, structural compression based on
local spatial prior and non-structural token pruning. However, token pruning
breaks the spatial structure that is indispensable for local spatial prior. To
take advantage of both two pipelines, this work seeks to dynamically identify
uninformative tokens for each instance and trim down both the training and
inference complexity while maintaining complete spatial structure and
information flow. To achieve this goal, we propose Evo-ViT, a self-motivated
slow-fast token evolution method for vision transformers. Specifically, we
conduct unstructured instance-wise token selection by taking advantage of the
global class attention that is unique to vision transformers. Then, we propose
to update informative tokens and placeholder tokens that contribute little to
the final prediction with different computational priorities, namely, slow-fast
updating. Thanks to the slow-fast updating mechanism that guarantees
information flow and spatial structure, our Evo-ViT can accelerate vanilla
transformers of both flat and deep-narrow structures from the very beginning of
the training process. Experimental results demonstrate that the proposed method
can significantly reduce the computational costs of vision transformers while
maintaining comparable performance on image classification. For example, our
method accelerates DeiTS by over 60% throughput while only sacrificing 0.4%
top-1 accuracy.
- Abstract(参考訳): ビジョン・トランスフォーマーは最近爆発的な人気を得たが、計算コストは依然として深刻な問題である。
視覚トランスフォーマーの最近の効率的な設計は、2つのパイプライン、すなわち局所空間前置および非構造トークンプラニングに基づく構造的圧縮に従う。
しかし、トークンプルーニングは局所的な空間的事前に欠かせない空間構造を破る。
2つのパイプラインの利点を生かすために、この研究は、各インスタンスのインフォーマティブなトークンを動的に識別し、完全な空間構造と情報フローを維持しながら、トレーニングと推論の複雑さを縮小することを目指している。
この目的を達成するために,視覚変換器の自己モチベーションの遅いトークン進化手法であるEvo-ViTを提案する。
具体的には,視覚トランスフォーマー特有のグローバルクラスの注意を生かして,非構造化インスタンス単位のトークン選択を行う。
そこで我々は,最終予測にほとんど寄与しない情報トークンとプレースホルダトークンを更新することを提案する。
情報の流れと空間構造を保証する低速な更新機構のおかげで、evo-vitはトレーニングプロセスの初期段階から、フラット構造とディープナロー構造のバニラトランスフォーマを加速することができる。
実験により,提案手法は画像分類において同等の性能を維持しつつ,視覚変換器の計算コストを大幅に削減できることを示した。
例えば,0.4%のtop-1精度を犠牲にしながら,60%以上のスループットでdeitを高速化する。
関連論文リスト
- Dynamic Token-Pass Transformers for Semantic Segmentation [22.673910995773262]
セマンティックセグメンテーションのための動的トークン・パス・ビジョン・トランスフォーマー(DoViT)を導入する。
DoViTは、部分的に簡単なトークンを自己注意計算から徐々に停止させ、停止基準を満たすまでハードトークンを前進させ続ける。
提案手法は, 約40%$sim$ 60% FLOPsを低減し, mIoUの低下は, 各種セグメンテーション変圧器の0.8%以内である。
論文 参考訳(メタデータ) (2023-08-03T06:14:24Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。