論文の概要: Beyond 2:4: exploring V:N:M sparsity for efficient transformer inference on GPUs
- arxiv url: http://arxiv.org/abs/2410.16135v1
- Date: Mon, 21 Oct 2024 16:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:06.235539
- Title: Beyond 2:4: exploring V:N:M sparsity for efficient transformer inference on GPUs
- Title(参考訳): 2:4を超えて:GPU上の効率的なトランスフォーマー推論のためのV:N:M空間の探索
- Authors: Kang Zhao, Tao Yuan, Han Bao, Zhenfeng Su, Chang Gao, Zhaofeng Sun, Zichen Liang, Liping Jing, Jianfei Chen,
- Abstract要約: V:N:Mスパシティは2:4スパシティの制限に対処する上で有望である。
V:N:Mのスパーシリティに関連する特定の問題、例えば適切なVとMの値をどうやって選択するかは未解決のままである。
本稿では,V:N:Mスパース変換器の適用性と精度を高めるための3つの重要な手法を提案する。
- 参考スコア(独自算出の注目度): 20.629404832215872
- License:
- Abstract: To date, 2:4 sparsity has stood as the only sparse pattern that can be accelerated using sparse tensor cores on GPUs. In practice, 2:4 sparsity often possesses low actual speedups ($\leq 1.3$) and requires fixed sparse ratios, meaning that other ratios, such as 4:8, 8:16, or those exceeding 50% sparsity, do not incur any speedups on GPUs. Recent studies suggest that V:N:M sparsity is promising in addressing these limitations of 2:4 sparsity. However, regarding accuracy, the effects of V:N:M sparsity on broader Transformer models, such as vision Transformers and large language models (LLMs), are largely unexamined. Moreover, Some specific issues related to V:N:M sparsity, such as how to select appropriate V and M values, remain unresolved. In this study, we thoroughly investigate the application of V:N:M sparsity in vision models and LLMs across multiple tasks, from pertaining to downstream tasks. We propose three key approaches to enhance the applicability and accuracy of V:N:M-sparse Transformers, including heuristic V and M selection, V:N:M-specific channel permutation, and three-staged LoRA training techniques. Experimental results show that, with our methods, the DeiT-small achieves lossless accuracy at 64:2:5 sparsity, while the DeiT-base maintains accuracy even at 64:2:8 sparsity. In addition, the fine-tuned LLama2-7B at 64:2:5 sparsity performs comparably or better than training-free 2:4 sparse alternatives on downstream tasks. More importantly, V:N:M-sparse Transformers offer a wider range of speedup-accuracy trade-offs compared to 2:4 sparsity. Overall, our exploration largely facilitates the V:N:M sparsity to act as a truly effective acceleration solution for Transformers in cost-sensitive inference scenarios.
- Abstract(参考訳): これまでのところ、GPU上のスパーステンソルコアを使用して加速できる唯一のスパースパターンは2:4スパシティである。
実際には、2:4スパシティは、しばしば低い実際のスピードアップ(\leq 1.3$)を持ち、固定されたスパース比を必要とする。
近年の研究では、V:N:M間隔が2:4間隔のこれらの制限に対処する上で有望であることが示唆されている。
しかし、精度に関しては、視覚変換器や大言語モデル(LLM)など、より広範な変換器モデルに対するV:N:M空間の影響はほとんど検討されていない。
さらに、適切なVとMの値を選択する方法など、V:N:Mのスパーシリティに関連するいくつかの特定の問題は未解決のままである。
本研究では,V:N:Mが複数のタスクにまたがる視覚モデルとLCMにおける空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間的空間
本稿では,V:N:M-スパース変換器の適用性と精度を高めるために,ヒューリスティックなVとMの選択,V:N:M特化チャネル置換,3段階のLoRAトレーニング手法を提案する。
実験の結果,DiT-smallは64:2:5間隔でロスレス精度を実現し,DiTベースは64:2:8間隔でも精度を維持した。
さらに、64:2:5の微調整されたLLama2-7Bは、ダウンストリームタスクにおいて、トレーニングなしの2:4スパース代替よりも、相容れないか、あるいは優れている。
さらに重要なのは、V:N:Mスパーストランスフォーマーは2:4の間隔に比べて、幅広いスピードアップ精度のトレードオフを提供することだ。
全体として、当社の探索は、コスト依存推論シナリオにおけるトランスフォーマーの真の効果的な加速ソリューションとして機能するために、V:N:Mの空間性を大幅に促進します。
関連論文リスト
- ELSA: Exploiting Layer-wise N:M Sparsity for Vision Transformer Acceleration [8.829482765731022]
N:M$ sparsityは、ますます多くのアクセラレーターがサポートする新しいモデル圧縮メソッドである。
ELSA, Exploiting Layer-wise $N:M$ Sparsity for ViTsを提案する。
論文 参考訳(メタデータ) (2024-09-15T12:14:24Z) - S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training [20.113352600259226]
S-STEは,2:4スパースに連続的に重みを投影し,テンソルごとの固定スケーリング係数でスパース重みを再スケールする,シンプルな2:4トレーニング手法である。
その結果,提案手法は以前の2:4の事前学習レシピよりも優れており,完全なパラメータモデルでも同等であることがわかった。
論文 参考訳(メタデータ) (2024-09-13T08:29:36Z) - Accelerating Transformer Pre-training with 2:4 Sparsity [19.64391647966267]
NVIDIA Ampere GPUは、細粒度の2:4スパース行列乗算を、その密度の高い等価値の2倍の速さで実行することができる。
そこで本研究では,スパース精製ストレートスルー推定器を改良し,温暖化段階における分解係数を推定し,モデルの品質を向上させる3つの手法を提案する。
提案アルゴリズムは,複数の変圧器事前学習タスクにおいて,密集学習アルゴリズムと類似の収束性を実現する一方,変圧器ブロックの異なる形状で実際の加速度を観測することができる。
論文 参考訳(メタデータ) (2024-04-02T11:12:42Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - VENOM: A Vectorized N:M Format for Unleashing the Power of Sparse Tensor
Cores [19.28753465771938]
本稿では,ディープラーニングルーチンのための高性能スパースライブラリであるSpathaが,cuBLASの最大37倍の高速化を実現していることを示す。
また, 現代の変圧器において, V:N:Mと高間隔比のスパシフィケーションが可能であり, 精度の低下がほとんど, ほとんどない2次プルーニング手法を実証した。
論文 参考訳(メタデータ) (2023-10-03T14:08:26Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z) - MixFormerV2: Efficient Fully Transformer Tracking [49.07428299165031]
トランスフォーマーベースのトラッカーは標準ベンチマークで高い精度を実現している。
しかし、その効率性は、GPUとCPUプラットフォームの両方での実践的なデプロイの障害であり続けている。
本稿では,EmphMixFormerV2と呼ばれるフルトランスフォーマートラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T09:50:54Z) - Boost Vision Transformer with GPU-Friendly Sparsity and Quantization [29.96026533220083]
本稿では,GPUに親しみやすい2:4の微細構造空間と量子化を最大限に活用する圧縮方式を徹底的に設計する。
実験結果によると、GPUSQ-ViT方式は、モデルサイズが6.4-12.7倍、FLOPが30.3-62倍のビジョントランスフォーマーモデルを減らし、最先端の圧縮を実現する。
論文 参考訳(メタデータ) (2023-05-18T05:55:48Z) - Unified Visual Transformer Compression [102.26265546836329]
本稿では,3つの有効な手法をシームレスに組み立てる,統一的なViT圧縮フレームワークを提案する。
予算制約のあるエンドツーエンドの最適化フレームワークを定式化し、モデルウェイトを共同学習し、レイヤーワイドプルーニング比/マスクを作成し、構成をスキップする。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
論文 参考訳(メタデータ) (2022-03-15T20:38:22Z) - Chasing Sparsity in Vision Transformers: An End-to-End Exploration [127.10054032751714]
ビジョン・トランスフォーマー(ViT)は最近爆発的な人気を博したが、その巨大なモデルサイズとトレーニングコストは依然として大きなものだ。
本稿では、達成可能な精度を犠牲にすることなく、トレーニングメモリのオーバーヘッドと推論の複雑さの両方を削減することを目的とする。
具体的には、完全なViTをトレーニングする代わりに、固定された小さなパラメータ予算に固執しながら、スパースワークを動的に抽出し、訓練する。
論文 参考訳(メタデータ) (2021-06-08T17:18:00Z) - DeLighT: Deep and Light-weight Transformer [116.9850555964728]
DeLighTは、パラメータが大幅に少ない標準のトランスフォーマーベースモデルと同じような、あるいは優れたパフォーマンスを提供する。
DeLighTは、DeLighT変換、ディープおよびライトウェイト変換、および(2)ブロック単位のスケーリングを用いて、(1)各トランスフォーマーブロック内のパラメータをより効率的に割り当てる。
論文 参考訳(メタデータ) (2020-08-03T03:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。