論文の概要: A Unified Pruning Framework for Vision Transformers
- arxiv url: http://arxiv.org/abs/2111.15127v1
- Date: Tue, 30 Nov 2021 05:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 15:09:45.115042
- Title: A Unified Pruning Framework for Vision Transformers
- Title(参考訳): 視覚トランスフォーマーのための統一プルーニングフレームワーク
- Authors: Hao Yu, Jianxin Wu
- Abstract要約: ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
- 参考スコア(独自算出の注目度): 40.7622551128182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, vision transformer (ViT) and its variants have achieved promising
performances in various computer vision tasks. Yet the high computational costs
and training data requirements of ViTs limit their application in
resource-constrained settings. Model compression is an effective method to
speed up deep learning models, but the research of compressing ViTs has been
less explored. Many previous works concentrate on reducing the number of
tokens. However, this line of attack breaks down the spatial structure of ViTs
and is hard to be generalized into downstream tasks. In this paper, we design a
unified framework for structural pruning of both ViTs and its variants, namely
UP-ViTs. Our method focuses on pruning all ViTs components while maintaining
the consistency of the model structure. Abundant experimental results show that
our method can achieve high accuracy on compressed ViTs and variants, e.g.,
UP-DeiT-T achieves 75.79% accuracy on ImageNet, which outperforms the vanilla
DeiT-T by 3.59% with the same computational cost. UP-PVTv2-B0 improves the
accuracy of PVTv2-B0 by 4.83% for ImageNet classification. Meanwhile, UP-ViTs
maintains the consistency of the token representation and gains consistent
improvements on object detection tasks.
- Abstract(参考訳): 近年、視覚トランスフォーマー(vit)とその変種は様々なコンピュータビジョンタスクで有望な性能を達成している。
しかし、高い計算コストとViTsのトレーニングデータ要求は、リソース制約のある設定での応用を制限する。
モデル圧縮は深層学習モデルの高速化に有効な手法であるが, 圧縮型ViTの研究はあまり行われていない。
以前の多くの作業はトークンの数を減らすことに集中している。
しかし、この攻撃線はViTの空間構造を分解し、下流のタスクに一般化することは困難である。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを設計する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
その結果, UP-DeiT-Tは画像ネット上で75.79%の精度を達成でき, バニラのDeiT-Tを3.59%上回る精度が得られることがわかった。
UP-PVTv2-B0はイメージネット分類においてPVTv2-B0の精度を4.83%向上させる。
一方、UP-ViTはトークン表現の一貫性を維持し、オブジェクト検出タスクの一貫性を改善している。
関連論文リスト
- Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - DeViT: Decomposing Vision Transformers for Collaborative Inference in
Edge Devices [42.89175608336226]
ビジョントランス (ViT) は、複数のコンピュータビジョンベンチマークで最先端のパフォーマンスを達成した。
ViTモデルは膨大なパラメータと高い計算コストに悩まされ、リソース制約されたエッジデバイスへのデプロイが困難になる。
本稿では,大規模なViTを分解してエッジ展開を容易にするために,DeViTと呼ばれる協調推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-10T12:26:17Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Unified Visual Transformer Compression [102.26265546836329]
本稿では,3つの有効な手法をシームレスに組み立てる,統一的なViT圧縮フレームワークを提案する。
予算制約のあるエンドツーエンドの最適化フレームワークを定式化し、モデルウェイトを共同学習し、レイヤーワイドプルーニング比/マスクを作成し、構成をスキップする。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
論文 参考訳(メタデータ) (2022-03-15T20:38:22Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - SPViT: Enabling Faster Vision Transformers via Soft Token Pruning [38.10083471492964]
ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。
平板およびCNN型構造のバニラ変圧器に設定できる計算対応ソフトプルーニングフレームワークを提案する。
我々のフレームワークは、画像分類に匹敵する性能を維持しながら、ViTの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-12-27T20:15:25Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。