論文の概要: DuoGPT: Training-free Dual Sparsity through Activation-aware Pruning in LLMs
- arxiv url: http://arxiv.org/abs/2506.20194v1
- Date: Wed, 25 Jun 2025 07:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.643332
- Title: DuoGPT: Training-free Dual Sparsity through Activation-aware Pruning in LLMs
- Title(参考訳): DuoGPT:LDMにおけるアクティベーション・アウェア・プルーニングによるトレーニング不要なデュアルスパリティ
- Authors: Ruokai Yin, Yuhang Li, Donghyun Lee, Priyadarshini Panda,
- Abstract要約: 大規模言語モデル(LLM)は強力なパフォーマンスを提供するが、高いメモリと計算コストのためにデプロイが困難である。
本稿では,非構造的重み付けとアクティベーション空間を組み合わせ,二重スパース(spMspV)ワークロードを構築する統合フレームワークであるDuoGPTを提案する。
我々は,DuoGPTがベースライン密度モデルと比較して1.39$times$のアイソスピードアップで9.17%の精度で,最先端の構造化プルーニング法より優れていることを示す。
- 参考スコア(独自算出の注目度): 22.404999928343006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) deliver strong performance but are difficult to deploy due to high memory and compute costs. While pruning reduces these demands, most methods ignore activation sparsity observed at runtime. We reinterpret activation sparsity as dynamic structured weight sparsity and propose DuoGPT, a unified framework that constructs dual-sparse (spMspV) workloads by combining unstructured weight pruning with activation sparsity. To preserve accuracy, we extend the Optimal Brain Compression (OBC) framework with activation-aware calibration and introduce output residuals from the dense model as correction terms. We further optimize the solution for efficient GPU execution, enabling scalability to billion-parameter LLMs. Evaluations on LLaMA-2 and LLaMA-3 show that DuoGPT outperforms state-of-the-art structured pruning methods by up to 9.17% accuracy at an iso-speedup of 1.39$\times$ compared to the baseline dense model.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力なパフォーマンスを提供するが、高いメモリと計算コストのためにデプロイが困難である。
プルーニングはこれらの要求を減らすが、ほとんどのメソッドは実行時に観察されるアクティベーションの間隔を無視している。
本研究では, 動的重み間隔を動的構造的重み間隔として再解釈し, 非構造的重み間隔とアクティベーション間隔を組み合わせた二重スパース(spMspV)ワークロードを構築する統合フレームワークであるDuoGPTを提案する。
精度を維持するため、アクティベーション対応キャリブレーションによる最適脳圧縮(OBC)フレームワークを拡張し、高密度モデルからの出力残差を補正項として導入する。
さらに、効率的なGPU実行のためのソリューションを最適化し、数十億パラメータ LLM のスケーラビリティを可能にします。
LLaMA-2とLLaMA-3の評価では、DuoGPTはベースラインの密度モデルと比較して1.39$\times$のイソスピードアップで、最先端の構造化プルーニング法を9.17%の精度で上回っている。
関連論文リスト
- FASP: Fast and Accurate Structured Pruning of Large Language Models [24.185245582500876]
FASP(Fast and Accurate Structured Pruning)は,大規模言語モデル(LLM)のための新しい構造化プルーニングフレームワークである。
FASPはシーケンシャルなレイヤを相互にリンクする独自のプルーニング構造を採用しており、同時に前のレイヤで対応する行を削除しながら、追加のパフォーマンス損失を発生させることなく、ひとつのレイヤで列を削除できる。
我々は,OPTおよびLLaMAモデルファミリー上でのFASPを評価し,最先端の手法と比較して,下流タスクの難易度と精度において優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-16T09:38:39Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - PAT: Pruning-Aware Tuning for Large Language Models [19.622152991641045]
大規模言語モデルは言語タスク、特に事前訓練後の教師付き微調整において優れている。
伝統的なポストホットプルーニングは、しばしばパフォーマンスを著しく損なう。
モデル冗長性を排除するために,Pruning-Aware Tuning(PAT)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-08-27T01:04:14Z) - A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models [24.185245582500876]
本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナであるFISTAPrunerを紹介する。
FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。
OPT, LLaMA, LLaMA-2, LLaMA-3 などのモデルにおける FISTAPruner の評価を行った。
論文 参考訳(メタデータ) (2024-08-07T12:33:46Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models [74.59731375779934]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
本稿では,PLMを高活性化空間にプッシュするために,"ProSparse" という,シンプルで効果的なスペース化手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。