論文の概要: PPT: Token Pruning and Pooling for Efficient Vision Transformers
- arxiv url: http://arxiv.org/abs/2310.01812v3
- Date: Mon, 5 Feb 2024 09:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:53:29.474303
- Title: PPT: Token Pruning and Pooling for Efficient Vision Transformers
- Title(参考訳): ppt:効率的な視覚トランスフォーマーのためのトークンプルーニングとプール
- Authors: Xinjian Wu, Fanhu Zeng, Xiudong Wang, Xinghao Chen
- Abstract要約: 我々は新しいアクセラレーションフレームワーク、すなわちトークン・プルーニング・アンド・プール変換器(PPT)を提案する。
PPTは、トレーニング可能なパラメータを追加せずに、トークンプーリングとトークンプーリングの両方をViTsに統合する。
37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善する。
- 参考スコア(独自算出の注目度): 7.792045532428676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have emerged as powerful models in the field of
computer vision, delivering superior performance across various vision tasks.
However, the high computational complexity poses a significant barrier to their
practical applications in real-world scenarios. Motivated by the fact that not
all tokens contribute equally to the final predictions and fewer tokens bring
less computational cost, reducing redundant tokens has become a prevailing
paradigm for accelerating vision transformers. However, we argue that it is not
optimal to either only reduce inattentive redundancy by token pruning, or only
reduce duplicative redundancy by token merging. To this end, in this paper we
propose a novel acceleration framework, namely token Pruning & Pooling
Transformers (PPT), to adaptively tackle these two types of redundancy in
different layers. By heuristically integrating both token pruning and token
pooling techniques in ViTs without additional trainable parameters, PPT
effectively reduces the model complexity while maintaining its predictive
accuracy. For example, PPT reduces over 37% FLOPs and improves the throughput
by over 45% for DeiT-S without any accuracy drop on the ImageNet dataset. The
code is available at https://github.com/xjwu1024/PPT and
https://github.com/mindspore-lab/models/
- Abstract(参考訳): ビジョントランスフォーマー (vits) はコンピュータビジョンの分野で強力なモデルとして登場し、様々なビジョンタスクで優れたパフォーマンスを提供する。
しかし、高い計算複雑性は現実のシナリオで実用的応用に重大な障壁をもたらす。
全てのトークンが最終予測に等しく寄与するわけではなく、より少ないトークンは計算コストを低減し、冗長トークンの削減はビジョントランスフォーマーを加速する主要なパラダイムとなっている。
しかし,トークンプルーニングによる不注意冗長性を低減するか,トークンマージによる重複冗長性を低減するかは最適ではない。
そこで本稿では,これら2種類の冗長性を異なる層で適応的に扱うための新しい加速フレームワーク,トークンプルーニングとプーリングトランスフォーマ(ppt)を提案する。
トレーニング可能なパラメータを追加せずに、トークンプルーニングとトークンプーリングの両方をViTsに統合することにより、PTは予測精度を維持しながら、モデルの複雑さを効果的に軽減する。
例えば、PPTは37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善している。
コードはhttps://github.com/xjwu1024/PPTとhttps://github.com/mindspore-lab/models/で入手できる。
関連論文リスト
- Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - GTP-ViT: Efficient Vision Transformers via Graph-based Token Propagation [30.343504537684755]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野に革命をもたらしたが、リソースに制約のあるデバイスへの展開は依然として困難である。
ViTを高速化するために、トークンのプルーニングとトークンのマージアプローチが開発され、計算に関わるトークンの数を減らすことを目的としている。
本稿では,効率的なViTのためのモデル効率と情報保存のバランスをとることの課題を解決するために,グラフベースの新しいToken Propagation(GTP)手法を提案する。
論文 参考訳(メタデータ) (2023-11-06T11:14:19Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token
Migration [138.24994198567794]
ITPNは2つの精巧な設計で生まれ、1)視覚変換器を用いた最初の事前訓練型特徴ピラミッド(ViT)である。
Fast-iTPNは推論手順を最大70%高速化でき、性能損失は無視できる。
論文 参考訳(メタデータ) (2022-11-23T06:56:12Z) - Multi-Tailed Vision Transformer for Efficient Inference [44.43126137573205]
Vision Transformer (ViT) は画像認識において有望な性能を達成した。
本稿では,MT-ViT(Multi-Tailed Vision Transformer)を提案する。
MT-ViTは、以下のTransformerエンコーダのために異なる長さの視覚シーケンスを生成するために複数のテールを採用する。
論文 参考訳(メタデータ) (2022-03-03T09:30:55Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Token Pooling in Vision Transformers [37.11990688046186]
視覚変換器では、自己注意は主要なボトルネックではなく、例えば、計算の80%以上が完全に接続された層に費やされている。
本稿では,画像と中間トークン表現の冗長性を効果的に活用するトークンダウンサンプリング手法Token Poolingを提案する。
実験の結果,Token Poolingは最先端のダウンサンプリングに対する費用対精度のトレードオフを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:22:50Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。