論文の概要: ELSA: Exploiting Layer-wise N:M Sparsity for Vision Transformer Acceleration
- arxiv url: http://arxiv.org/abs/2409.09708v1
- Date: Sun, 15 Sep 2024 12:14:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 19:38:20.993209
- Title: ELSA: Exploiting Layer-wise N:M Sparsity for Vision Transformer Acceleration
- Title(参考訳): ELSA:Vision Transformer AccelerationのためのレイヤワイズN:Mスポーサリティの爆発
- Authors: Ning-Chi Huang, Chi-Chih Chang, Wei-Cheng Lin, Endri Taka, Diana Marculescu, Kai-Chiang Wu,
- Abstract要約: N:M$ sparsityは、ますます多くのアクセラレーターがサポートする新しいモデル圧縮メソッドである。
ELSA, Exploiting Layer-wise $N:M$ Sparsity for ViTsを提案する。
- 参考スコア(独自算出の注目度): 8.829482765731022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: $N{:}M$ sparsity is an emerging model compression method supported by more and more accelerators to speed up sparse matrix multiplication in deep neural networks. Most existing $N{:}M$ sparsity methods compress neural networks with a uniform setting for all layers in a network or heuristically determine the layer-wise configuration by considering the number of parameters in each layer. However, very few methods have been designed for obtaining a layer-wise customized $N{:}M$ sparse configuration for vision transformers (ViTs), which usually consist of transformer blocks involving the same number of parameters. In this work, to address the challenge of selecting suitable sparse configuration for ViTs on $N{:}M$ sparsity-supporting accelerators, we propose ELSA, Exploiting Layer-wise $N{:}M$ Sparsity for ViTs. Considering not only all $N{:}M$ sparsity levels supported by a given accelerator but also the expected throughput improvement, our methodology can reap the benefits of accelerators supporting mixed sparsity by trading off negligible accuracy loss with both memory usage and inference time reduction for ViT models. For instance, our approach achieves a noteworthy 2.9$\times$ reduction in FLOPs for both Swin-B and DeiT-B with only a marginal degradation of accuracy on ImageNet. Our code will be released upon paper acceptance.
- Abstract(参考訳): N{:}M$ sparsityは、ディープニューラルネットワークにおけるスパース行列の乗算を高速化するために、より多くのアクセラレーターがサポートする新しいモデル圧縮手法である。
既存のほとんどの$N{:}M$ sparsityメソッドは、ネットワーク内のすべてのレイヤに対して均一な設定でニューラルネットワークを圧縮する。
しかし、視覚変換器(ViT)のための層単位でカスタマイズされた$N{:}M$スパース構成(通常は同じ数のパラメータを含む変圧器ブロックからなる)を得るために設計された手法はほとんどない。
本研究では, VT のスパース構成を$N{:}M$スペーサ性支援アクセラレータ上で選択する問題に対処するため, ELSA, Exploiting Layer-wise $N{:}M$ Sparsity for ViTsを提案する。
N{:}M$スパシティレベルが与えられたアクセラレータでサポートされているだけでなく、スループットの向上も期待できるので、VTモデルのメモリ使用量と推論時間の両方で無視できる精度損失を抑えることで、混合スパシティをサポートするアクセラレータの利点を享受できる。
例えば、我々の手法は、ImageNetの精度を極端に低下させるだけで、Swin-BとDeiT-Bの両方のFLOPを2.9$\times$で削減できる。
私たちのコードは受理後に解放されます。
関連論文リスト
- HyperZ$\cdot$Z$\cdot$W Operator Connects Slow-Fast Networks for Full
Context Interaction [0.0]
自己注意機構は、ドット製品ベースのアクティベーションを通じてプログラムされた大きな暗黙の重み行列を利用して、訓練可能なパラメータがほとんどないため、長いシーケンスモデリングを可能にする。
本稿では,ネットワークの各層におけるコンテキストの完全な相互作用を実現するために,大きな暗黙のカーネルを用いて残差学習を破棄する可能性について検討する。
このモデルにはいくつかの革新的なコンポーネントが組み込まれており、遅いネットワークを更新するための局所的なフィードバックエラー、安定なゼロ平均機能、より高速なトレーニング収束、より少ないモデルパラメータなど、優れた特性を示している。
論文 参考訳(メタデータ) (2024-01-31T15:57:21Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer [6.473688838974095]
本稿では,GPU上でのエンドツーエンドの推論高速化を実現するために,$textbfShiftAddViT$と呼ばれる新たな乗法モデルを提案する。
様々な2D/3D視覚タスクの実験は、提案したShiftAddViTの有効性を一貫して検証する。
論文 参考訳(メタデータ) (2023-06-10T13:53:41Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - Fast Walsh-Hadamard Transform and Smooth-Thresholding Based Binary
Layers in Deep Neural Networks [0.0]
本研究では,WHT(Fast Walsh-Hadamard transform)とスムーススホールディングに基づく層を提案し,深層ニューラルネットワークにおける1回1$の畳み込み層を置き換える。
これら2種類のレイヤを使用して、MobileNet-V2のボトルネック層を置き換え、ネットワークのパラメータ数をわずかに減らし、精度を低下させます。
論文 参考訳(メタデータ) (2021-04-14T19:23:36Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Self Sparse Generative Adversarial Networks [73.590634413751]
GAN(Generative Adversarial Networks)は、敵対的トレーニングを通じてデータ分布を学習する監視されていない生成モデルである。
本論文では,パラメータ空間を小さくし,ゼロ勾配問題を軽減するSelf Sparse Generative Adversarial Network (Self-Sparse GAN)を提案する。
論文 参考訳(メタデータ) (2021-01-26T04:49:12Z) - DHP: Differentiable Meta Pruning via HyperNetworks [158.69345612783198]
本稿では,ネットワークの自動プルーニングのためのハイパーネットによる識別可能なプルーニング手法を提案する。
遅延ベクトルは、バックボーンネットワーク内の畳み込み層の出力チャネルを制御し、レイヤのプルーニングのハンドルとして機能する。
画像分類、単一画像超解像、復調のための様々なネットワークで実験が行われた。
論文 参考訳(メタデータ) (2020-03-30T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。