論文の概要: Amber Pruner: Leveraging N:M Activation Sparsity for Efficient Prefill in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.02128v1
- Date: Mon, 04 Aug 2025 07:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.219651
- Title: Amber Pruner: Leveraging N:M Activation Sparsity for Efficient Prefill in Large Language Models
- Title(参考訳): Amber Pruner: 大規模言語モデルにおける効率的なプレフィルのためのN:Mアクティベーションスパシリティを活用する
- Authors: Tai An, Ruwu Cai, Yanzhe Zhang, Yang Liu, Hao Chen, Pengcheng Xie, Sheng Chang, Yiwu Yao, Gongyi Wang,
- Abstract要約: トレーニング不要なN:Mアクティベーション・スパシティ法であるAmber Prunerを導入する。
実験により、Amber Prunerは、モデル再トレーニングを必要とせずに、線形計算の55%以上を効果的に分散し、加速できることが示されている。
本稿では,Amber PrunerとW8A8量子化後の学習を統合する統合フレームワークであるOutstanding-sparseを提案する。
- 参考スコア(独自算出の注目度): 10.779802084898206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of large language models (LLMs), N:M sparsity has emerged as a structured compression technique critical for accelerating inference. While prior work has primarily focused on weight sparsity, it often suffers from significant accuracy degradation. Activation sparsity, though promising, is typically training-dependent and faces challenges in generalization. To address these limitations, we introduce Amber Pruner, a training-free N:M activation sparsity method designed specifically for the prefill stage, targeting the acceleration of linear projection layers in LLMs. Extensive experiments across multiple models and sparsity ratios (2:4, 4:8, and 8:16) demonstrate that Amber Pruner can effectively sparsify and accelerate more than 55% of linear computations without requiring model retraining. To further enhance generality and efficiency, we propose Outstanding-sparse, a unified framework that integrates Amber Pruner with post-training W8A8 quantization. Our approach preserves strong performance across a range of downstream tasks, with notable advantages in generative tasks. This work pioneers a new frontier in activation sparsity, providing foundational insights that are poised to guide the co-evolution of algorithms and architectures in the design of next-generation AI systems.
- Abstract(参考訳): 大規模言語モデル (LLMs) の時代には, N:M は推論の高速化に不可欠な構造化圧縮技術として出現している。
以前の研究は主に重量の幅に焦点を合わせてきたが、しばしばかなりの精度の劣化に悩まされる。
アクティベーション・スパシティは、有望ではあるが、トレーニングに依存し、一般化の課題に直面している。
これらの制約に対処するために,LLMにおける線形射影層の加速度をターゲットとした,前処理段階に特化して設計されたトレーニングフリーなN:Mアクティベーション間隔法であるAmber Prunerを導入する。
複数のモデルと空間比(2:4, 4:8, 8:16)にわたる大規模な実験により、アンバー・プルーナーはモデル再訓練を必要とせず、線形計算の55%以上を効果的に分散させ、加速させることができることを示した。
本稿では,Amber Prunerと後学習型W8A8量子化を統合する統合フレームワークであるOutstanding-sparseを提案する。
提案手法は, 下流タスクにおいて高い性能を保ち, 生成タスクにおいて顕著なアドバンテージを有する。
この研究は、アクティベーション空間における新たなフロンティアを開拓し、次世代AIシステムの設計におけるアルゴリズムとアーキテクチャの共進化を導く基礎的な洞察を提供する。
関連論文リスト
- Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs [79.7618807098457]
大きな言語モデル(LLM)は多くのタスクにまたがって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実用的なデプロイメントに重大な計算上の課題をもたらします。
本稿は,このような積極的関節切断を実現させる上で重要な,しばしば見落とされがちな側面として,残った重量の戦略的再初期化と調整があげられることを論じる。
構造化プルーニングを中心としたLCM加速のためのフレームワークであるPangu Lightと、新しい重量再初期化技術を紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:57:08Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models [29.863953001061635]
拡散モデル(DM)は高品質で多様な画像を生成する上で優れた性能を示した。
既存の作業は主にDM効率を高めるためのトレーニングプロセスを採用している。
本稿では,アテンション駆動型トレーニングフリー効率拡散モデル (AT-EDM) フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-08T17:56:47Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z) - Controlled Sparsity via Constrained Optimization or: How I Learned to
Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。
スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。
本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文 参考訳(メタデータ) (2022-08-08T21:24:20Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。