論文の概要: Lightweight error mitigation strategies for post-training N:M activation sparsity in LLMs
- arxiv url: http://arxiv.org/abs/2509.22166v1
- Date: Fri, 26 Sep 2025 10:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.366622
- Title: Lightweight error mitigation strategies for post-training N:M activation sparsity in LLMs
- Title(参考訳): LLMにおける後処理N:Mアクティベーションの軽量化戦略
- Authors: Shirin Alanova, Kristina Kazistova, Ekaterina Galaeva, Alina Kostromina, Vladimir Smirnov, Redko Dmitry, Alexey Dontsov, Maxim Zhelnin, Evgeny Burnaev, Egor Shvetsov,
- Abstract要約: 本研究は,大規模言語モデルにおけるN:Mアクティベーションプルーニングの学習後手法を包括的に分析する。
本研究は, 刈り込み活性化により, 同等の空間レベルでの刈り込みに比べて, 生成能の保存性が向上できることを実証する。
本研究は,アクティベーションプルーニングの効果的な実践方法と,よりフレキシブルなスパーシティパターンをサポートする将来のハードウェアへのモチベーションを提供する。
- 参考スコア(独自算出の注目度): 17.379374639721554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The demand for efficient large language model (LLM) inference has intensified the focus on sparsification techniques. While semi-structured (N:M) pruning is well-established for weights, its application to activation pruning remains underexplored despite its potential for dynamic, input-adaptive compression and reductions in I/O overhead. This work presents a comprehensive analysis of methods for post-training N:M activation pruning in LLMs. Across multiple LLMs, we demonstrate that pruning activations enables superior preservation of generative capabilities compared to weight pruning at equivalent sparsity levels. We evaluate lightweight, plug-and-play error mitigation techniques and pruning criteria, establishing strong hardware-friendly baselines that require minimal calibration. Furthermore, we explore sparsity patterns beyond NVIDIA's standard 2:4, showing that the 16:32 pattern achieves performance nearly on par with unstructured sparsity. However, considering the trade-off between flexibility and hardware implementation complexity, we focus on the 8:16 pattern as a superior candidate. Our findings provide both effective practical methods for activation pruning and a motivation for future hardware to support more flexible sparsity patterns. Our code is available https://anonymous.4open.science/r/Structured-Sparse-Activations-Inference-EC3C/README.md .
- Abstract(参考訳): 効率的な大言語モデル(LLM)推論の需要は、スパーシフィケーション技術に重点を置いている。
セミ構造化(N:M)プルーニングは重みに対して十分に確立されているが、動的で入力適応的な圧縮とI/Oオーバーヘッドの低減の可能性にもかかわらず、アクティベーションプルーニングへの応用は未探索のままである。
本研究は,LLMにおけるN:Mアクティベーションプルーニングの学習後の手法を包括的に分析する。
複数のLDMをまたいで, 刈り込み活性化により, 同等の空間レベルでの刈り込みに比べて, 再生能力の保存性が向上することが実証された。
我々は、軽量でプラグアンドプレイのエラー軽減技術とプルーニング基準を評価し、最小限の校正を必要とするハードウェアフレンドリーなベースラインを確立する。
さらに、NVIDIAの標準2:4を超えるスパーシリティパターンを調査し、16:32パターンが非構造化のスパーシリティとほぼ同等のパフォーマンスを達成することを示す。
しかし、柔軟性とハードウェア実装の複雑さのトレードオフを考えると、優れた候補として8:16パターンに注目します。
本研究は,アクティベーションプルーニングの効果的な実践方法と,よりフレキシブルなスパーシティパターンをサポートする将来のハードウェアへのモチベーションを提供する。
私たちのコードはhttps://anonymous.4open.science/r/Structured-Sparse-Activations-Inference-EC3C/README.mdで利用可能です。
関連論文リスト
- SkipGPT: Dynamic Layer Pruning Reinvented with Token Awareness and Module Decoupling [16.742839354514512]
我々は,大規模言語モデルを最適化する動的層プルーニングフレームワークであるSkipGPTを紹介する。
また,SkipGPTはモデルパラメータの40%以上を削減できることを示す。
論文 参考訳(メタデータ) (2025-06-04T17:26:31Z) - WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference [44.538579135121466]
WINA(Weight Informed Neuron Activation)は、新しい、シンプルで、トレーニング不要なスパースアクティベーションフレームワークである。
WINAは,従来の手法よりも厳密な理論的保証を持つ最適近似誤差境界が得られることを示す。
また、最先端の手法(例えばTEAL)を同等の間隔で平均性能で2.94%まで上回っている。
論文 参考訳(メタデータ) (2025-05-26T02:37:32Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。
実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
論文 参考訳(メタデータ) (2024-12-13T02:26:54Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文 参考訳(メタデータ) (2023-12-19T09:23:48Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。