論文の概要: PATCH: Learnable Tile-level Hybrid Sparsity for LLMs
- arxiv url: http://arxiv.org/abs/2509.23410v1
- Date: Sat, 27 Sep 2025 16:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.210968
- Title: PATCH: Learnable Tile-level Hybrid Sparsity for LLMs
- Title(参考訳): PATCH:LLMのための学習可能なタイルレベルハイブリッドスパシティ
- Authors: Younes Hourri, Mohammad Mozaffari, Maryam Mehri Dehnavi,
- Abstract要約: 大規模言語モデル(LLM)は、優れたパフォーマンスを提供するが、デプロイ時のメモリと計算コストは禁じている。
モデルプルーニングはこれらのオーバーヘッドを削減する効果的な方法であるが、既存のアプローチでは課題に直面している。
我々は,0%から50%の連続スパシティ比を可能にするハイブリッド・スパシティ・フレームワークであるエレーションを紹介した。
- 参考スコア(独自算出の注目度): 5.6088646835895615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) deliver impressive performance but incur prohibitive memory and compute costs at deployment. Model pruning is an effective way to reduce these overheads, yet existing approaches face challenges: unstructured sparsity, where nonzeros can appear anywhere, preserves accuracy but yields irregular access patterns that prevent GPU acceleration, while semi-structured 2:4 sparsity is hardware-friendly but enforces a rigid 50% pattern that degrades model quality. To bridge this gap, we introduce PATCH, a hybrid sparsity framework that enables a continuous sparsity ratio between 0% and 50%. PATCH partitions weight matrices into tiles, assigning each tile to be either dense or 2:4 sparse via a learnable mask selection mechanism. This design provides fine-grained control over accuracy-acceleration tradeoffs and supports non-uniform sparsity across layers, leading to superior overall quality. Across models from 0.5B to 8B parameters, PATCH consistently narrows the gap to dense accuracy while delivering practical speedups. For instance, on LLaMA-2 7B with an A6000 GPU, PATCH achieves 1.18x-1.38x end-to-end speedup over dense baselines while improving accuracy by 0.37%-2.96% compared to the state-of-the-art 2:4 pruning method, MaskLLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、優れたパフォーマンスを提供するが、デプロイ時のメモリと計算コストは禁じている。
モデルプルーニングは、これらのオーバーヘッドを削減する効果的な方法だが、既存のアプローチでは、非ゼロがどこにでも現れる非構造化のスパーシリティ(unstructured sparsity)は、精度を保ちながらGPUアクセラレーションを防ぐ不規則なアクセスパターンを生成する。
このギャップを埋めるために、私たちは、0%から50%の連続的なスパシティ比を可能にするハイブリッド・スパシティ・フレームワークであるPATCHを紹介します。
PATCHは重量行列をタイルに分割し、学習可能なマスク選択機構を通じて各タイルを密度または2:4スパースに割り当てる。
この設計は、精度の加速トレードオフをきめ細かな制御を提供し、層間の不均一な間隔をサポートし、全体的な品質が向上する。
0.5Bから8Bパラメータのモデル全体で、PATCHは事実上のスピードアップを実現しつつ、ギャップを厳密な精度に一貫して絞り込む。
例えば、A6000 GPUを搭載したLLaMA-2 7Bでは、PATCHは密度の高いベースライン上で1.18x-1.38xのエンドツーエンドのスピードアップを実現し、最先端の2:4プルーニング手法であるMaskLLMに比べて精度は0.37%-2.96%向上した。
関連論文リスト
- Fantastic Pretraining Optimizers and Where to Find Them [59.56075036649332]
AdamWは長い間、言語モデルの事前訓練において支配的な勾配だった。
行列ベースの行列の高速化はモデルスケールに逆比例する。
論文 参考訳(メタデータ) (2025-09-02T07:43:22Z) - DeltaLLM: A Training-Free Framework Exploiting Temporal Sparsity for Efficient Edge LLM Inference [19.987309147268586]
デルタLLMは、リソース制約エッジデバイス上での効率的なLCM推論を実現するために、注意パターンの時間的間隔を利用する訓練不要のフレームワークである。
我々は、エッジデバイスフレンドリーなBitNet-b1.58-2B-4TモデルとLlama3.2-1B-Instructモデルについて、様々な言語タスクで評価する。
論文 参考訳(メタデータ) (2025-07-25T18:23:18Z) - BLaST: High Performance Inference and Pretraining using BLock Sparse Transformers [16.72390519245507]
(Bl)ock(a)nd(S)parse(T)ransformers)(BLaST)
Bl)ock (a)nd (S)parse (T)ransformers (BLaST)を紹介する。
BLaSTは、無視できる精度の損失を伴うスパース重量において最大95%の間隔を達成できる。
論文 参考訳(メタデータ) (2025-07-03T18:53:54Z) - From 2:4 to 8:16 sparsity patterns in LLMs for Outliers and Weights with Variance Correction [36.136619420474766]
8:16の半構造化空間は、ストレージオーバーヘッドを最小限に抑え、柔軟性を向上することを示した。
また, サリエントウェイトに対してスパース構造パターンを適用し, 非構造的アプローチとの競合性を示す。
論文 参考訳(メタデータ) (2025-07-03T12:17:45Z) - ORBIT-2: Scaling Exascale Vision Foundation Models for Weather and Climate Downscaling [15.369357830312914]
ORBIT-2は、グローバルで高解像度の気候ダウンスケーリングのためのスケーラブルな基盤モデルである。
Residual Slim ViT (Reslim)は、残学習とベイズ正規化による効率的で堅牢な予測を備えた軽量アーキテクチャである。
TILESはタイル回りのシーケンススケーリングアルゴリズムであり、二次から線形への自己認識の複雑さを低減する。
論文 参考訳(メタデータ) (2025-05-07T21:09:00Z) - A Proximal Operator for Inducing 2:4-Sparsity [68.98036844970986]
我々は、特徴の局所的相関を利用して、訓練されたモデルでより良い空間マスクを求める正則化器を導出する。
本手法を玩具問題に適用し,最大70Bパラメータの大規模言語モデル全体の解析に適用する。
論文 参考訳(メタデータ) (2025-01-29T22:05:17Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。
SLIMはモデル精度を最大5.66%(LLaMA-2-7B)まで改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models [87.64417894918506]
この研究は、大規模言語モデルにおける半構造化(あるいはN:M'')のスパーシティを確立する学習可能なプルーニング手法であるMaskLLMを紹介した。
MaskLLMはGumbel Softmaxサンプリングを通じて学習可能な分布としてN:Mパターンを明示的にモデル化する。
論文 参考訳(メタデータ) (2024-09-26T02:37:41Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。