論文の概要: Joint Token Pruning and Squeezing Towards More Aggressive Compression of
Vision Transformers
- arxiv url: http://arxiv.org/abs/2304.10716v1
- Date: Fri, 21 Apr 2023 02:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 16:08:23.391272
- Title: Joint Token Pruning and Squeezing Towards More Aggressive Compression of
Vision Transformers
- Title(参考訳): 視覚変換器のより攻撃的な圧縮に向けてのジョイントToken PruningとSqueezing
- Authors: Siyuan Wei, Tianzhu Ye, Shen Zhang, Yao Tang, Jiajun Liang
- Abstract要約: 視覚変換器を高効率で圧縮するための新しいTPS(Token Pruning & Squeezing Module)を提案する。
TPSは、プルーニングされたトークンの情報を、一方向近傍のマッチングと類似性に基づく融合ステップを介して、部分的な予約トークンに絞り込む。
提案手法は,DeiT-tinyを超えるスループットを向上し,精度はDeiT-tinyより4.78%向上する。
- 参考スコア(独自算出の注目度): 2.0442992958844517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although vision transformers (ViTs) have shown promising results in various
computer vision tasks recently, their high computational cost limits their
practical applications. Previous approaches that prune redundant tokens have
demonstrated a good trade-off between performance and computation costs.
Nevertheless, errors caused by pruning strategies can lead to significant
information loss. Our quantitative experiments reveal that the impact of pruned
tokens on performance should be noticeable. To address this issue, we propose a
novel joint Token Pruning & Squeezing module (TPS) for compressing vision
transformers with higher efficiency. Firstly, TPS adopts pruning to get the
reserved and pruned subsets. Secondly, TPS squeezes the information of pruned
tokens into partial reserved tokens via the unidirectional nearest-neighbor
matching and similarity-based fusing steps. Compared to state-of-the-art
methods, our approach outperforms them under all token pruning intensities.
Especially while shrinking DeiT-tiny&small computational budgets to 35%, it
improves the accuracy by 1%-6% compared with baselines on ImageNet
classification. The proposed method can accelerate the throughput of DeiT-small
beyond DeiT-tiny, while its accuracy surpasses DeiT-tiny by 4.78%. Experiments
on various transformers demonstrate the effectiveness of our method, while
analysis experiments prove our higher robustness to the errors of the token
pruning policy. Code is available at
https://github.com/megvii-research/TPS-CVPR2023.
- Abstract(参考訳): 近年、視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて有望な結果を示しているが、その高い計算コストは実用性を制限する。
旧来の冗長トークンに対するアプローチは、パフォーマンスと計算コストのトレードオフをよく示していた。
それでも、プルーニング戦略によるエラーは、重大な情報損失につながる可能性がある。
定量的実験により,プルーニングトークンが性能に与える影響が明らかとなった。
そこで,本稿では,視覚トランスフォーマーを高効率に圧縮するための新しいジョイントトークンpruning & squeezing module (tps)を提案する。
まず、tpsはpruningを採用し、reservedとprunedのサブセットを取得する。
第二に、TPSはプルーニングトークンの情報を一方向近傍のマッチングと類似性に基づく融合ステップを介して部分的予約トークンに絞り込む。
最先端の手法と比較して、我々の手法は全てのトークンプルーニング強度でそれらより優れています。
特に、deit-tiny&small計算予算を35%に縮小する一方で、imagenet分類のベースラインと比較すると1%-6%精度が向上する。
提案手法により,DeiT-tinyを超えるスループットが向上し,DeiT-tinyの精度は4.78%向上した。
各種変圧器の実験では本手法の有効性が実証され, 分析実験ではトークンプルーニングポリシーの誤りに対する高いロバスト性が確認された。
コードはhttps://github.com/megvii-research/tps-cvpr2023で入手できる。
関連論文リスト
- Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文 参考訳(メタデータ) (2023-10-09T12:10:41Z) - PPT: Token Pruning and Pooling for Efficient Vision Transformers [7.792045532428676]
我々は新しいアクセラレーションフレームワーク、すなわちトークン・プルーニング・アンド・プール変換器(PPT)を提案する。
PPTは、トレーニング可能なパラメータを追加せずに、トークンプーリングとトークンプーリングの両方をViTsに統合する。
37%以上のFLOPを削減し、ImageNetデータセットの精度低下なしに、DeiT-Sのスループットを45%以上改善する。
論文 参考訳(メタデータ) (2023-10-03T05:55:11Z) - Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。
従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文 参考訳(メタデータ) (2023-06-12T11:55:33Z) - Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。
より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。
提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文 参考訳(メタデータ) (2023-06-08T02:58:15Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Learned Token Pruning for Transformers [39.181816379061374]
Learned Token Pruning ()メソッドは、データがトランスフォーマーの異なるレイヤを通過すると、冗長なトークンを減らす。
複数のGLUEタスクに対して,提案手法の性能を広範囲に検証する。
予備的な結果はTesla T4とIntel Haswellの1.4倍と1.9倍のスループット向上を示す。
論文 参考訳(メタデータ) (2021-07-02T09:00:13Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。