論文の概要: WiSparse: Boosting LLM Inference Efficiency with Weight-Aware Mixed Activation Sparsity
- arxiv url: http://arxiv.org/abs/2602.14452v1
- Date: Mon, 16 Feb 2026 04:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.139159
- Title: WiSparse: Boosting LLM Inference Efficiency with Weight-Aware Mixed Activation Sparsity
- Title(参考訳): WiSparse:ウェイト・アウェア・ミックス・アクティベーション・スパリティによるLCM推論効率の向上
- Authors: Lei Chen, Yuan Meng, Xiaoyu Zhan, Zhi Wang, Wenwu Zhu,
- Abstract要約: トレーニング不要なアクティベーション空間は、効率的な大規模言語モデル推論のための有望なアプローチである。
ウェイト・アウェア・ミックス・グラニュラリティ・トレーニングフリー・アクティベーション・スパシティ(WiSparse)を提案する。
We show that WiSparse maintains 97% of Llama3.1's dense performance。
- 参考スコア(独自算出の注目度): 32.61817486761883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) offer strong capabilities but incur high inference costs due to dense computation and memory access. Training-free activation sparsity is a promising approach for efficient LLM inference, yet existing methods often rely solely on activation information and uniform sparsity ratios. This overlooks the critical interplay with weights and inter-block sensitivity variation, leading to suboptimal performance. We identify two key phenomena in modern LLMs: 1) less significant activations may align with highly important weights, and 2) sparsity sensitivity varies non-monotonically across model blocks. We propose Weight-aware Mixed-Granularity Training-free Activation Sparsity (WiSparse), which leverages both activation and weight information for adaptive sparsity allocation. Specifically, we introduce a weight-aware mechanism integrating activation magnitudes with precomputed weight norms to accurately identify salient channels. This is combined with a mixed-granularity allocation scheme: a global budget is distributed across blocks via evolutionary search to protect sensitive regions, then refined within blocks to minimize reconstruction error. We improve sparse kernels and demonstrate effectiveness on three representative models. Notably, at 50% sparsity, WiSparse preserves 97% of Llama3.1's dense performance, surpassing the strongest baseline by 2.23 percentage points while achieving a 21.4% acceleration in end-to-end inference speed. Our research advances the limits of training-free approaches for efficient LLM inference, pushing the boundaries of achievable speedup without training.
- Abstract(参考訳): 大きな言語モデル(LLM)は強力な能力を提供するが、高密度の計算とメモリアクセスのために高い推論コストがかかる。
トレーニング不要なアクティベーション間隔は、効率的なLCM推論のための有望なアプローチであるが、既存の手法はアクティベーション情報と均一なスパシティ比にのみ依存することが多い。
これは重みとブロック間感度の変化による臨界相互作用を見落とし、準最適性能をもたらす。
現代LLMにおける2つの重要な現象を同定する。
1)重要量の少ない活性化は、非常に重要な重量と一致し得る。
2) 空間感度はモデルブロック間で非単調に変化する。
適応時空間割当にアクティベーション情報と重み情報の両方を活用する,重み対応型混合粒度トレーニングフリーアクティベーションスパシティ(WiSparse)を提案する。
具体的には、活性化度を予め計算したウェイトノルムと統合し、サリアントチャネルを正確に識別するウェイトアウェア機構を提案する。
これは混合粒度割当スキームと組み合わせられ、グローバルな予算は進化的探索を通じてブロック間で分散され、センシティブな領域を保護し、再構築エラーを最小限に抑えるためにブロック内で洗練される。
スパースカーネルを改善し、3つの代表モデルで有効性を示す。
特に50%の間隔で、WiSparseはLlama3.1の高密度な性能の97%を保持し、最強のベースラインを2.23ポイント上回り、エンドツーエンドの推論速度で21.4%の加速を達成した。
我々の研究は、効率的なLCM推論のためのトレーニング不要アプローチの限界を前進させ、達成可能なスピードアップの境界をトレーニングなしで押し上げる。
関連論文リスト
- WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference [44.538579135121466]
WINA(Weight Informed Neuron Activation)は、新しい、シンプルで、トレーニング不要なスパースアクティベーションフレームワークである。
WINAは,従来の手法よりも厳密な理論的保証を持つ最適近似誤差境界が得られることを示す。
また、最先端の手法(例えばTEAL)を同等の間隔で平均性能で2.94%まで上回っている。
論文 参考訳(メタデータ) (2025-05-26T02:37:32Z) - Polar Sparsity: High Throughput Batched LLM Inferencing with Scalable Contextual Sparsity [4.24164487223914]
我々はPolar Sparsityを導入し、バッチサイズとシーケンスの長さをスケールするときに、高密度からアテンション層への空間的重要度の重要なシフトを強調します。
我々は, OPT, LLaMA-2 & 3 などのモデルに対して, 様々なバッチサイズおよびシーケンス長に対して最大 (2.2 時間) のエンドツーエンド速度を, 精度を損なうことなく実現し, ハードウェア効率が高く, 分散性に配慮したカーネルを開発した。
論文 参考訳(メタデータ) (2025-05-20T20:15:42Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Activation Sparsity Opportunities for Compressing General Large Language Models [4.5624217435826]
この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。
実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
論文 参考訳(メタデータ) (2024-12-13T02:26:54Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。