論文の概要: SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity
- arxiv url: http://arxiv.org/abs/2603.05232v1
- Date: Thu, 05 Mar 2026 14:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.277534
- Title: SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity
- Title(参考訳): SlideSparse: 高速でフレキシブル(2N-2):2N構造化スパリティ
- Authors: Hanyong Shao, Yingbo Hao, Ting Song, Yan Xia, Di Zhang, Shaohan Huang, Xun Wu, Songchen Xu, Le Xu, Li Dong, Zewen Chi, Yi Zou, Furu Wei,
- Abstract要約: NVIDIAの2:4 Sparse Coresは2倍のスループットを提供するが、厳しい50%のプルーニングを要求する。
Milder $(2N-2):2N$パターンは正確さを維持しながらハードウェアサポートを受けない。
Sparse Coreアクセラレーションをアンロックする最初のシステムであるSlideSparseを紹介する。
- 参考スコア(独自算出の注目度): 86.71343842875878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NVIDIA's 2:4 Sparse Tensor Cores deliver 2x throughput but demand strict 50% pruning -- a ratio that collapses LLM reasoning accuracy (Qwen3: 54% to 15%). Milder $(2N-2):2N$ patterns (e.g., 6:8, 25% pruning) preserve accuracy yet receive no hardware support, falling back to dense execution without any benefit from sparsity. We present SlideSparse, the first system to unlock Sparse Tensor Core acceleration for the $(2N-2):2N$ model family on commodity GPUs. Our Sliding Window Decomposition reconstructs any $(2N-2):2N$ weight block into $N-1$ overlapping 2:4-compliant windows without any accuracy loss; Activation Lifting fuses the corresponding activation rearrangement into per-token quantization at near-zero cost. Integrated into vLLM, SlideSparse is evaluated across various GPUs (A100, H100, B200, RTX 4090, RTX 5080, DGX-spark), precisions (FP4, INT8, FP8, BF16, FP16), and model families (Llama, Qwen, BitNet). On compute-bound workloads, the measured speedup ratio (1.33x) approaches the theoretical upper-bound $N/(N-1)=4/3$ at 6:8 weight sparsity in Qwen2.5-7B, establishing $(2N-2):2N$ as a practical path to accuracy-preserving LLM acceleration. Code available at https://github.com/bcacdwk/vllmbench.
- Abstract(参考訳): NVIDIAの2:4スパーステンソルコアは2倍のスループットを提供するが、厳格な50%のプルーニングを必要とする。
Milder $(2N-2):2N$パターン(例:6:8、25%のプルーニング)は正確さを維持しながらハードウェアサポートを受けていないため、スパーシティの恩恵を受けずに厳密な実行にフォールバックする。
2N-2:2N$モデルファミリに対してスパーステンソルコアアクセラレーションをアンロックする最初のシステムであるSlideSparseを提案する。
我々のスライディングウィンドウ分解は、任意の$(2N-2):2N$の重みブロックを、精度を損なうことなく、$N-1$の重み付き2:4準拠のウィンドウに再構成する。
vLLMに統合され、SlideSparseは様々なGPU(A100, H100, B200, RTX 4090, RTX 5080, DGX-spark)、精度(FP4, INT8, FP8, BF16, FP16)、モデルファミリ(Llama, Qwen, BitNet)で評価される。
計算バウンドワークロードでは、測定されたスピードアップ比(1.33x)が、Qwen2.5-7Bの6:8重み間隔で理論上界$N/(N-1)=4/3$に近づき、2N-2:2N$が精度保存LDM加速度の実用的な経路として確立された。
コードはhttps://github.com/bcacdwk/vllmbench.comで公開されている。
関連論文リスト
- FPGA Co-Design for Efficient N:M Sparse and Quantized Model Inference [0.8749675983608171]
大規模言語モデル(LLM)は、幅広い言語処理タスクにおいて顕著な性能を示している。
この研究は、ウェイトプルーニングと低ビット量子化を活用する自動化フレームワークを導入している。
本研究では,FPGA(Field-Programmable Gate Array)プラットフォーム上でアクセラレータを生成するハードウェア・ソフトウェア共同設計手法を提案する。
論文 参考訳(メタデータ) (2025-12-31T08:27:40Z) - FlexQ: Efficient Post-training INT6 Quantization for LLM Serving via Algorithm-System Co-Design [13.062940916273973]
大規模言語モデル(LLM)は例外的な性能を示すが、かなりのメモリと計算コストを必要とする。
既存のINT4/INT8量子化はこれらのコストを削減するが、しばしば精度を低下させるか、最適効率を欠く。
アルゴリズムの革新とシステムレベルの評価を組み合わせた新しいフレームワークFlexQを提案する。
論文 参考訳(メタデータ) (2025-08-06T12:47:05Z) - SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-thread INT4 Quantization [34.548270527357126]
そこで我々は,より高速な4ビット行列乗算(Matmul)と精度向上手法を併用したSageAttention2を提案する。
提案手法は,言語,画像,ビデオ生成など,さまざまなモデルにまたがる,無視可能なエンドツーエンドメトリクスの損失を生じさせる。
論文 参考訳(メタデータ) (2024-11-17T04:35:49Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - S-STE: Continuous Pruning Function for Efficient 2:4 Sparse Pre-training [20.113352600259226]
S-STEは,2:4スパースに連続的に重みを投影し,テンソルごとの固定スケーリング係数でスパース重みを再スケールする,シンプルな2:4トレーニング手法である。
その結果,本手法は以前の2:4の事前学習レシピを超え,完全なパラメータモデルでも同等であることがわかった。
論文 参考訳(メタデータ) (2024-09-13T08:29:36Z) - QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。
4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。
QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文 参考訳(メタデータ) (2024-05-07T17:59:30Z) - Fast-iTPN: Integrally Pre-Trained Transformer Pyramid Network with Token
Migration [138.24994198567794]
ITPNは2つの精巧な設計で生まれ、1)視覚変換器を用いた最初の事前訓練型特徴ピラミッド(ViT)である。
Fast-iTPNは推論手順を最大70%高速化でき、性能損失は無視できる。
論文 参考訳(メタデータ) (2022-11-23T06:56:12Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - 1$\ imes$N Block Pattern for Network Sparsity [90.43191747596491]
我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。
このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。
また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
論文 参考訳(メタデータ) (2021-05-31T05:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。