論文の概要: TSENOR: Highly-Efficient Algorithm for Finding Transposable N:M Sparse Masks
- arxiv url: http://arxiv.org/abs/2505.23949v1
- Date: Thu, 29 May 2025 18:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.634884
- Title: TSENOR: Highly-Efficient Algorithm for Finding Transposable N:M Sparse Masks
- Title(参考訳): TSENOR:トランスポーザブルN:Mスパースマスク探索のための高効率アルゴリズム
- Authors: Xiang Meng, Mehdi Makni, Rahul Mazumder,
- Abstract要約: ネットワークプルーニングは、大規模なニューラルネットワークの計算要求を減らす。
N:M 間隔は、M の連続重みのうち N だけを保持する。
変換可能なN:M空間は、この制限に対処するために提案されている。
- 参考スコア(独自算出の注目度): 12.33715367032615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Network pruning reduces the computational requirements of large neural networks, with N:M sparsity -- retaining only N out of every M consecutive weights -- offering a compelling balance between compressed model quality and hardware acceleration. However, N:M sparsity only accelerates forward-pass computations, as N:M patterns are not preserved during matrix transposition, limiting efficiency during training where both passes are computationally intensive. While transposable N:M sparsity has been proposed to address this limitation, existing methods for finding transposable N:M sparse masks either fail to scale to large models or are restricted to M=4 which results in suboptimal compression-accuracy trade-off. We introduce an efficient solver for transposable N:M masks that scales to billion-parameter models. We formulate mask generation as optimal transport problems and solve through entropy regularization and Dykstra's algorithm, followed by a rounding procedure. Our tensor-based implementation exploits GPU parallelism, achieving up to 100x speedup with only 1-10% error compared to existing methods. Our approach can be integrated with layer-wise N:M pruning frameworks including Wanda, SparseGPT and ALPS to produce transposable N:M sparse models with arbitrary N:M values. Experiments show that LLaMA3.2-8B with transposable 16:32 sparsity maintains performance close to its standard N:M counterpart and outperforms standard 2:4 sparse model, showing the practical value of our approach.
- Abstract(参考訳): ネットワークプルーニングは、圧縮されたモデル品質とハードウェアアクセラレーションの間の魅力的なバランスを提供する、大規模なニューラルネットワークの計算要求を減少させる。
しかし、N:Mの間隔は行列変換中にN:Mパターンが保存されないため、フォワードパス計算を加速するだけであり、両方のパスが計算集約的なトレーニングにおいて効率が制限される。
トランスポーザブルなN:Mスパシティは、この制限に対処するために提案されているが、既存の方法では、トランスポーザブルなN:Mスパースマスクは大きなモデルにスケールできないか、あるいはM=4に制限されている。
我々は,10億パラメータモデルにスケールするトランスポーザブルN:Mマスクの効率的な解法を提案する。
マスク生成を最適輸送問題として定式化し,エントロピー正則化とDykstraのアルゴリズムを用いて解いた。
テンソルベースの実装はGPU並列性を利用しており、既存の手法に比べて100倍のスピードアップを1~10%の誤差で達成しています。
提案手法は, Wanda, SparseGPT, ALPSなどのレイヤワイドN:Mプルーニングフレームワークと組み合わせて, 任意のN:M値を持つトランスポーザブルN:Mスパースモデルを生成する。
実験の結果,LLaMA3.2-8Bの透過性16:32は標準N:Mに近い性能を維持し,標準2:4スパースモデルよりも優れており,我々のアプローチの実用的価値を示している。
関連論文リスト
- Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Efficient N:M Sparse DNN Training Using Algorithm, Architecture, and
Dataflow Co-Design [15.47240906902083]
本稿では,アルゴリズム,アーキテクチャ,データフロー共設計を用いたN:MスパースDNNの計算効率向上学習手法を提案する。
アルゴリズムレベルでは、重みのN:M空間を利用するために、BDWPと呼ばれる双方向の重み決定法が提案されている。
アーキテクチャレベルでは、通常の高密度演算と計算効率のN:Mスパース演算の両方をサポートするために、DNNトレーニング用のスパースアクセラレータSATが開発された。
論文 参考訳(メタデータ) (2023-09-22T17:26:19Z) - Bi-directional Masks for Efficient N:M Sparse Training [64.9617631724811]
両方向マスク (Bi-Mask) の2つの中心的革新を取り入れた新しい手法を提案する。
前方と後方の重量空間を乱し、非常に密度の高い勾配を乗り越える。
トランスポーザブルマスクを応用し、後方加速を可能にする既存の一方向シナリオと比較して、我々のBi-Maskは性能がより優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2023-02-13T02:32:02Z) - Symmetric Tensor Networks for Generative Modeling and Constrained
Combinatorial Optimization [72.41480594026815]
ポートフォリオ最適化からロジスティクスに至るまで、制約付き最適化問題は業界に多い。
これらの問題の解決における主要な障害の1つは、有効な検索空間を制限する非自明なハード制約の存在である。
本研究では、Ax=bという形の任意の整数値等式制約をU(1)対称ネットワーク(TN)に直接エンコードし、それらの適用性を量子に着想を得た生成モデルとして活用する。
論文 参考訳(メタデータ) (2022-11-16T18:59:54Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - NxMTransformer: Semi-Structured Sparsification for Natural Language
Understanding via ADMM [16.464030458567187]
我々はNxMTransformerと呼ばれる新しい学習フレームワークを導入し、事前訓練された言語モデル上でNxM半構造化空間を誘導する。
我々は,制約付き最適化問題としてNxM空間を定式化し,下流タスクの最適化に Alternating Direction Method of Multipliers (ADMM) を用いることを提案する。
提案手法は,GLUEスコアの1.7ポイントの精度を現行の手法よりも高い精度で達成できる。
論文 参考訳(メタデータ) (2021-10-28T17:43:06Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Accelerated Sparse Neural Training: A Provable and Efficient Method to
Find N:M Transposable Masks [28.498176073737422]
最近、研究者はN:M$のきめ細かいブロック空間マスクを使用してディープニューラルネットワーク重み(DNN)を刈り取ることを提案した。
前方と後方の両方に同じマスクを使用できる新しいトランスポジブル細粒スパーシティマスクを提案します。
実験では,視覚モデルと言語モデルに対する精度低下を伴わない2倍の速度アップを提案する。
論文 参考訳(メタデータ) (2021-02-16T12:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。