論文の概要: CP-ViT: Cascade Vision Transformer Pruning via Progressive Sparsity
Prediction
- arxiv url: http://arxiv.org/abs/2203.04570v1
- Date: Wed, 9 Mar 2022 08:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 04:27:50.552339
- Title: CP-ViT: Cascade Vision Transformer Pruning via Progressive Sparsity
Prediction
- Title(参考訳): cp-vit:progressive sparsity predictionによるカスケードビジョントランスフォーマリンニング
- Authors: Zhuoran Song, Yihong Xu, Zhezhi He, Li Jiang, Naifeng Jing, and
Xiaoyao Liang
- Abstract要約: ViT(Vision Transformer)は、様々なコンピュータビジョンアプリケーションにおいて、競合する精度を達成したが、その計算コストは、リソース制限されたモバイルデバイスへのデプロイを妨げる。
本稿では, CP-ViTモデルにおいて, 精度損失を最小化しつつ, 計算冗長性を抑えるために, 動的かつ段階的に間隔を予測し, CP-ViTと呼ばれるカスケード刈り込みフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.578899848650675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformer (ViT) has achieved competitive accuracy on a variety of
computer vision applications, but its computational cost impedes the deployment
on resource-limited mobile devices.
We explore the sparsity in ViT and observe that informative patches and heads
are sufficient for accurate image recognition.
In this paper, we propose a cascade pruning framework named CP-ViT by
predicting sparsity in ViT models progressively and dynamically to reduce
computational redundancy while minimizing the accuracy loss. Specifically, we
define the cumulative score to reserve the informative patches and heads across
the ViT model for better accuracy. We also propose the dynamic pruning ratio
adjustment technique based on layer-aware attention range. CP-ViT has great
general applicability for practical deployment, which can be applied to a wide
range of ViT models and can achieve superior accuracy with or without
fine-tuning.
Extensive experiments on ImageNet, CIFAR-10, and CIFAR-100 with various
pre-trained models have demonstrated the effectiveness and efficiency of
CP-ViT. By progressively pruning 50\% patches, our CP-ViT method reduces over
40\% FLOPs while maintaining accuracy loss within 1\%.
- Abstract(参考訳): vision transformer (vit) は様々なコンピュータビジョンアプリケーションで競争力のある精度を達成しているが、その計算コストはリソース制限のあるモバイルデバイスへのデプロイを妨げる。
我々はViTの空間性を探究し、正確な画像認識に十分な情報パッチと頭部を観察する。
本稿では,vitモデルの分散性を漸進的かつ動的に予測し,精度損失を最小化しつつ計算冗長性を低減し,cp-vitというカスケードプルーニングフレームワークを提案する。
具体的には,vitモデル上で情報パッチとヘッドを保存し,精度を向上させるために累積スコアを定義する。
また,層認識注意範囲に基づく動的プルーニング比調整手法を提案する。
cp-vitは、幅広いvitモデルに適用可能で、微調整の有無に関わらず、優れた精度を実現することができる、実用的なデプロイメントに適用できる。
各種事前学習モデルを用いたImageNet, CIFAR-10, CIFAR-100の大規模実験により, CP-ViTの有効性と効率が示された。
CP-ViT法は, 50 % のパッチを段階的に刻むことにより, 40 % のFLOPを削減し, 精度損失を 1 % に抑える。
関連論文リスト
- TReX- Reusing Vision Transformer's Attention for Efficient Xbar-based Computing [12.583079680322156]
本稿では,注目度に基づくViT最適化フレームワークであるTReXを提案する。
We found that TReX achieves 2.3x (2.19x) EDAP reduction and 1.86x (1.79x) TOPS/mm2 improve with 1% accuracy drop in case of DeiT-S (LV-ViT-S) ViT models。
CoLAのようなNLPタスクでは、TReXは、基準線が1.6倍低いEDAPよりも2%高い非理想的精度をもたらす。
論文 参考訳(メタデータ) (2024-08-22T21:51:38Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - DeViT: Decomposing Vision Transformers for Collaborative Inference in
Edge Devices [42.89175608336226]
ビジョントランス (ViT) は、複数のコンピュータビジョンベンチマークで最先端のパフォーマンスを達成した。
ViTモデルは膨大なパラメータと高い計算コストに悩まされ、リソース制約されたエッジデバイスへのデプロイが困難になる。
本稿では,大規模なViTを分解してエッジ展開を容易にするために,DeViTと呼ばれる協調推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-10T12:26:17Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - CAP: Correlation-Aware Pruning for Highly-Accurate Sparse Vision Models [22.055655390093722]
correlation Aware Pruner (CAP) は最先端アーキテクチャの圧縮限界を大幅に押し下げる。
新たな理論的に調整されたプルーナーは、プルーニングプロセス自体の複雑な重量相関を正確かつ効率的に処理する。
自己監督技術を用いて訓練された超高精度な大規模視覚モデルも、適度な空間にプルーニングでき、精度の低下も無視できることを示す。
論文 参考訳(メタデータ) (2022-10-14T12:19:09Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。