論文の概要: Toward Efficient Permutation for Hierarchical N:M Sparsity on GPUs
- arxiv url: http://arxiv.org/abs/2407.20496v1
- Date: Tue, 30 Jul 2024 01:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 18:28:58.203305
- Title: Toward Efficient Permutation for Hierarchical N:M Sparsity on GPUs
- Title(参考訳): 階層的N:M空間のGPU上での効率的な置換に向けて
- Authors: Seungmin Yu, Xiaodie Yi, Hayun Lee, Dongkun Shin,
- Abstract要約: N:Mスパシティ・プルーニングは、ディープニューラルネットワークを圧縮する強力な技術である。
ジャイロ置換(gyro-permutation)と呼ばれるHiNM空間に特化して設計されたチャネル置換法を提案する。
- 参考スコア(独自算出の注目度): 1.3124513975412255
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: N:M sparsity pruning is a powerful technique for compressing deep neural networks, utilizing NVIDIA's Sparse Tensor Core technology. This method benefits from hardware support for sparse indexing, enabling the adoption of fine-grained sparsity to maintain model accuracy while minimizing the overhead typically associated with irregular data access. Although restricted to a fixed level of sparsity due to its reliance on hardware, N:M sparsity can be combined with coarser sparsity techniques to achieve diverse compression ratios. Initially, column-wise vector sparsity is applied to a dense model, followed by row-wise N:M sparsity on the preserved column vectors. We call this multi-level approach as hierarchical N:M (HiNM) sparsity. Similar to earlier single-level sparsity techniques, HiNM sparsity necessitates an effective channel permutation strategy to maximize the accuracy of the compressed networks. However, it introduces further complexities by requiring the rearrangement of both input and output channels, addressing challenges such as permutation sequence, HiNM-sparsity-aware permutation, and maintaining consistency in channel ordering across layers. In this paper, we introduce a channel permutation method designed specifically for HiNM sparsity, named gyro-permutation. This method is crafted to exploit the unique characteristics of HiNM pruning, incorporating a strategic policy in each permutation phase, including channel sampling, clustering, and assignment, to circumvent local minima. Additionally, we have developed a GPU kernel that facilitates independent layer permutation during the execution of HiNM sparse networks. Our extensive experimental evaluations on various DNN models demonstrate that our gyro-permutation significantly enhances the accuracy of HiNM sparse networks, allowing them to reach performance levels comparable to those of unstructured sparse networks.
- Abstract(参考訳): N:Mスパシティプルーニングは、NVIDIAのスパーステンソルコア技術を利用して、ディープニューラルネットワークを圧縮する強力な技術である。
この手法はスパースインデクシングのハードウェアサポートの恩恵を受けており、不規則なデータアクセスに関連するオーバーヘッドを最小限に抑えつつ、きめ細かなスペーシングをモデル精度を維持することができる。
ハードウェアに依存しているため、一定の間隔に制限されるが、N:M間隔は、様々な圧縮比を達成するために粗い間隔技術と組み合わせることができる。
当初、列ワイドベクトル空間は密度モデルに適用され、その後保存された列ベクトル上で行ワイドN:M空間が続く。
このマルチレベルアプローチを階層的N:M(HiNM)スパシティと呼ぶ。
従来のシングルレベルスパンサリティ技術と同様に、HiNMスパンサリティは圧縮されたネットワークの精度を最大化するために効果的なチャネル置換戦略を必要とする。
しかし、入力チャネルと出力チャネルの両方の再配置を必要とし、置換シーケンス、HiNMスパーシリティ対応の置換といった課題に対処し、層間のチャネル順序の整合性を維持することで、さらなる複雑さがもたらされる。
本稿では, ジャイロ置換(gyro-permutation)という, HiNM空間に特化して設計されたチャネル置換法を提案する。
本手法は, チャネルサンプリング, クラスタリング, 割り当てを含む各置換相に戦略方針を取り入れ, 局所最小化を回避することで, 局所最小化の独特な特徴を生かした。
また,HiNMスパースネットワーク実行時の独立層置換を容易にするGPUカーネルを開発した。
各種DNNモデルに対する広範囲な実験的評価により、我々のジャイロ置換は、HiNMスパースネットワークの精度を大幅に向上し、非構造化スパースネットワークのものと同等の性能レベルに達することが示されている。
関連論文リスト
- SGLP: A Similarity Guided Fast Layer Partition Pruning for Compressing Large Deep Models [19.479746878680707]
レイヤプルーニングは、ネットワークサイズを削減し、計算効率を向上させるための強力なアプローチである。
大規模深層モデル圧縮のための類似性誘導高速層分割プルーニングを提案する。
本手法は精度と計算効率の両面で最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-10-14T04:01:08Z) - Scalable Graph Compressed Convolutions [68.85227170390864]
ユークリッド畳み込みのための入力グラフのキャリブレーションに置換を適用する微分可能手法を提案する。
グラフキャリブレーションに基づいて,階層型グラフ表現学習のための圧縮畳み込みネットワーク(CoCN)を提案する。
論文 参考訳(メタデータ) (2024-07-26T03:14:13Z) - NeuraLUT: Hiding Neural Network Density in Boolean Synthesizable Functions [2.7086888205833968]
Field-Programmable Gate Array (FPGA)アクセラレータは、レイテンシとリソースクリティカルなDeep Neural Network (DNN)推論タスクの処理に成功している。
本稿では、ニューロンの境界を緩和し、サブネットワーク全体を単一のLUTにマッピングすることを提案する。
提案手法は,既知の遅延クリティカルタスク,ジェットサブストラクチャタグ,古典的コンピュータビジョンタスク,MNISTを用いた桁分類で検証する。
論文 参考訳(メタデータ) (2024-02-29T16:10:21Z) - Multicoated and Folded Graph Neural Networks with Strong Lottery Tickets [3.0894823679470087]
本稿では,アーキテクチャとパラメータの両面から検索空間を拡張するためのマルチステージ・フォールディング法とアンシャレッド・マスク法を提案する。
高空間性、競争性能、高メモリ効率を最大98.7%の削減で達成することにより、エネルギー効率の高いグラフ処理に適していることを示す。
論文 参考訳(メタデータ) (2023-12-06T02:16:44Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - T-GAE: Transferable Graph Autoencoder for Network Alignment [79.89704126746204]
T-GAEはグラフオートエンコーダフレームワークで、GNNの転送性と安定性を活用して、再トレーニングなしに効率的なネットワークアライメントを実現する。
実験の結果、T-GAEは最先端の最適化手法と最高のGNN手法を最大38.7%、50.8%で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-10-05T02:58:29Z) - Spatial Re-parameterization for N:M Sparsity [92.72334929464013]
N:M間隔は空間領域内で一定の間隔率を示す。
構造のない空間は 空間領域をまたがる 空間の空間性にかなりのばらつきを 示しています
SpReは、N:Mのスパーシリティ法と最先端の非構造化のスパーシティ法のパフォーマンスをマッチングすることで、賞賛できる偉業を成し遂げた。
論文 参考訳(メタデータ) (2023-06-09T01:11:50Z) - Learning k-Level Structured Sparse Neural Networks Using Group Envelope Regularization [4.0554893636822]
制約のあるリソースに大規模ディープニューラルネットワークをデプロイするための新しいアプローチを導入する。
この手法は推論時間を短縮し、メモリ需要と消費電力を減らすことを目的とする。
論文 参考訳(メタデータ) (2022-12-25T15:40:05Z) - VQ-GNN: A Universal Framework to Scale up Graph Neural Networks using
Vector Quantization [70.8567058758375]
VQ-GNNは、Vector Quantization(VQ)を使用して、パフォーマンスを損なうことなく、畳み込みベースのGNNをスケールアップするための普遍的なフレームワークである。
我々のフレームワークは,グラフ畳み込み行列の低ランク版と組み合わせた量子化表現を用いて,GNNの「隣の爆発」問題を回避する。
論文 参考訳(メタデータ) (2021-10-27T11:48:50Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Learning Sparse Filters in Deep Convolutional Neural Networks with a
l1/l2 Pseudo-Norm [5.3791844634527495]
ディープニューラルネットワーク(DNN)は、多くのタスクで効率的であることが証明されているが、高いメモリと計算コストが伴う。
近年の研究では、それらの構造は性能を損なうことなくよりコンパクトにすることができることが示されている。
フィルタ係数に定義された比 l1/l2 の擬ノルムに基づいて, 疎度誘導正規化項を提案する。
論文 参考訳(メタデータ) (2020-07-20T11:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。