論文の概要: Vision Transformer Compression with Structured Pruning and Low Rank
Approximation
- arxiv url: http://arxiv.org/abs/2203.13444v1
- Date: Fri, 25 Mar 2022 04:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 22:28:47.395707
- Title: Vision Transformer Compression with Structured Pruning and Low Rank
Approximation
- Title(参考訳): 構造化プルーニングと低ランク近似による視覚変換器圧縮
- Authors: Ankur Kumar
- Abstract要約: トランスフォーマーアーキテクチャは、大規模なデータセットでスケールできることから人気を集めている。
画像認識タスクのための視覚変換器を提案する。
この目的のために、低階近似やプルーニングなどの異なる圧縮手法の適用について検討する。
- 参考スコア(独自算出の注目度): 1.9685957565449135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architecture has gained popularity due to its ability to scale
with large dataset. Consequently, there is a need to reduce the model size and
latency, especially for on-device deployment. We focus on vision transformer
proposed for image recognition task (Dosovitskiy et al., 2021), and explore the
application of different compression techniques such as low rank approximation
and pruning for this purpose. Specifically, we investigate a structured pruning
method proposed recently in Zhu et al. (2021) and find that mostly feedforward
blocks are pruned with this approach, that too, with severe degradation in
accuracy. We propose a hybrid compression approach to mitigate this where we
compress the attention blocks using low rank approximation and use the
previously mentioned pruning with a lower rate for feedforward blocks in each
transformer layer. Our technique results in 50% compression with 14% relative
increase in classification error whereas we obtain 44% compression with 20%
relative increase in error when only pruning is applied. We propose further
enhancements to bridge the accuracy gap but leave it as a future work.
- Abstract(参考訳): 大規模なデータセットでスケールできるため、transformerアーキテクチャが人気を集めている。
そのため、特にデバイス上のデプロイメントでは、モデルのサイズとレイテンシを低減する必要がある。
画像認識タスクに提案した視覚変換器(Dosovitskiy et al., 2021)に着目し, 低階近似やプルーニングなどの異なる圧縮技術の適用について検討する。
具体的には,zhu et al. (2021) で最近提案されている構造的プルーニング法について検討し, フィードフォワードブロックのほとんどが, 精度の低下とともに, このアプローチでプルーニングされていることを発見した。
そこで我々は,低階近似を用いて注目ブロックを圧縮し,前述したプルーニングを用いて,各トランス層におけるフィードフォワードブロックのレートを低くするハイブリッド圧縮手法を提案する。
その結果, 分類誤差が14%, 分類誤差が44%, プルーニングのみに適用した場合の誤差が20%, 50%の圧縮が得られた。
精度ギャップを埋めるためにさらなる拡張を提案するが、将来の作業として残す。
関連論文リスト
- Beyond Throughput and Compression Ratios: Towards High End-to-end Utility of Gradient Compression [13.255861297820326]
勾配圧縮は、通信された勾配データ量を減らすことができる。
実際には、勾配圧縮スキームはトレーニングプロセスの加速を達成せず、精度を保っている。
従来の勾配圧縮システムにおける共通問題と評価手法について述べる。
論文 参考訳(メタデータ) (2024-07-01T15:32:28Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Compression-aware Projection with Greedy Dimension Reduction for
Convolutional Neural Network Activations [3.6188659868203388]
分類精度と圧縮比のトレードオフを改善するための圧縮対応投影システムを提案する。
提案手法は,MobileNetV2/ResNet18/VGG16の精度低下により2.91x5.97xのメモリアクセスを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2021-10-17T14:02:02Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Compressed Communication for Distributed Training: Adaptive Methods and
System [13.244482588437972]
通信オーバーヘッドは、分散機械学習システムのスケーラビリティを著しく妨げます。
近年,通信オーバーヘッドを低減するために勾配圧縮を使うことへの関心が高まっている。
本稿では, グラデーション圧縮を用いた新しい適応勾配法を提案する。
論文 参考訳(メタデータ) (2021-05-17T13:41:47Z) - ScaleCom: Scalable Sparsified Gradient Compression for
Communication-Efficient Distributed Training [74.43625662170284]
最先端プラットフォーム上でのDeep Neural Networks(DNN)の大規模分散トレーニングは,通信の厳しい制約が期待できる。
本稿では,学習者間の勾配分布の類似性を活用した新しい圧縮手法を提案する。
実験により,scalecomのオーバーヘッドは小さく,勾配トラフィックを直接低減し,高い圧縮率(65~400倍)と優れたスケーラビリティ(64名までの学習者,8~12倍のバッチサイズ)を提供する。
論文 参考訳(メタデータ) (2021-04-21T02:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。