論文の概要: CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs
- arxiv url: http://arxiv.org/abs/2309.15755v1
- Date: Wed, 27 Sep 2023 16:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 12:52:00.871114
- Title: CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs
- Title(参考訳): CAIT: ViT の高精度,高速推論,良好な転送性に対するトリプルウィン圧縮
- Authors: Ao Wang, Hui Chen, Zijia Lin, Sicheng Zhao, Jungong Han, Guiguang Ding
- Abstract要約: ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
- 参考スコア(独自算出の注目度): 79.54107547233625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have emerged as state-of-the-art models for
various vision tasks recently. However, their heavy computation costs remain
daunting for resource-limited devices. Consequently, researchers have dedicated
themselves to compressing redundant information in ViTs for acceleration.
However, they generally sparsely drop redundant image tokens by token pruning
or brutally remove channels by channel pruning, leading to a sub-optimal
balance between model performance and inference speed. They are also
disadvantageous in transferring compressed models to downstream vision tasks
that require the spatial structure of images, such as semantic segmentation. To
tackle these issues, we propose a joint compression method for ViTs that offers
both high accuracy and fast inference speed, while also maintaining favorable
transferability to downstream tasks (CAIT). Specifically, we introduce an
asymmetric token merging (ATME) strategy to effectively integrate neighboring
tokens. It can successfully compress redundant token information while
preserving the spatial structure of images. We further employ a consistent
dynamic channel pruning (CDCP) strategy to dynamically prune unimportant
channels in ViTs. Thanks to CDCP, insignificant channels in multi-head
self-attention modules of ViTs can be pruned uniformly, greatly enhancing the
model compression. Extensive experiments on benchmark datasets demonstrate that
our proposed method can achieve state-of-the-art performance across various
ViTs. For example, our pruned DeiT-Tiny and DeiT-Small achieve speedups of
1.7$\times$ and 1.9$\times$, respectively, without accuracy drops on ImageNet.
On the ADE20k segmentation dataset, our method can enjoy up to 1.31$\times$
speedups with comparable mIoU. Our code will be publicly available.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は最近、様々なビジョンタスクの最先端モデルとして登場した。
しかし、リソース制限されたデバイスでは、計算コストが大幅に削減される。
その結果、研究者は加速のためにViTに余分な情報を圧縮することに専心した。
しかし、一般的には、トークンプルーニングやチャンネルプルーニングによるチャンネルの残酷な除去によって冗長な画像トークンをわずかに減少させ、モデル性能と推論速度の間の準最適バランスをもたらす。
また、圧縮されたモデルを、セマンティックセグメンテーションのような画像の空間構造を必要とする下流視覚タスクに転送する際にも不利である。
これらの課題に対処するため、我々は、下流タスク(CAIT)への良好な転送性を維持しつつ、高精度かつ高速な推論速度を提供するViTのジョイント圧縮手法を提案する。
具体的には、隣接するトークンを効果的に統合するための非対称トークンマージ(ATME)戦略を導入する。
画像の空間構造を保ちながら、冗長なトークン情報をうまく圧縮することができる。
さらに,ViTsにおける非重要チャネルを動的にプーンするために,一貫した動的チャネルプルーニング(CDCP)戦略を採用する。
CDCPにより、ViTのマルチヘッド自己保持モジュールにおける重要なチャネルを均一に切断することができ、モデル圧縮を大幅に向上させることができる。
ベンチマークデータセットの大規模な実験により,提案手法は様々なViTで最先端の性能を実現することができることを示した。
例えば、pruned DeiT-TinyとDeiT-Smallはそれぞれ1.7$\times$と1.9$\times$のスピードアップを実現しています。
ade20kセグメンテーションデータセットでは、同等のmiouで最大1.31$\times$ speedupsを享受できる。
私たちのコードは公開されます。
関連論文リスト
- Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision
Transformers [15.108494142240993]
視覚変換器(ViT)は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。
高い計算複雑性は、ViTsのメモリとコンピューティングリソースの制限のあるデバイスへの適用性を妨げている。
小型VTを改良するための新しいチャネルシャッフルモジュールを提案する。
論文 参考訳(メタデータ) (2023-10-09T11:56:35Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Unified Visual Transformer Compression [102.26265546836329]
本稿では,3つの有効な手法をシームレスに組み立てる,統一的なViT圧縮フレームワークを提案する。
予算制約のあるエンドツーエンドの最適化フレームワークを定式化し、モデルウェイトを共同学習し、レイヤーワイドプルーニング比/マスクを作成し、構成をスキップする。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
論文 参考訳(メタデータ) (2022-03-15T20:38:22Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。