論文の概要: ACE: Exploring Activation Cosine Similarity and Variance for Accurate and Calibration-Efficient LLM Pruning
- arxiv url: http://arxiv.org/abs/2505.21987v1
- Date: Wed, 28 May 2025 05:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.426595
- Title: ACE: Exploring Activation Cosine Similarity and Variance for Accurate and Calibration-Efficient LLM Pruning
- Title(参考訳): ACE: 正確な校正・校正効率のLDMプルーニングにおける活性化コサイン類似性と変動の探索
- Authors: Zhendong Mi, Zhenglun Kong, Geng Yuan, Shaoyi Huang,
- Abstract要約: 本研究では,高速刈り出し性能と高速刈り出し速度を同時に達成する効率的かつ効率的な刈り出し法を提案する。
実験結果から, 本手法は, パープレキシティの最大18%, プルーニング時間の最大63%低減を実現していることがわかった。
- 参考スコア(独自算出の注目度): 15.933542902352604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid expansion of large language models (LLMs), the demand for memory and computational resources has grown significantly. Recent advances in LLM pruning aim to reduce the size and computational cost of these models. However, existing methods often suffer from either suboptimal pruning performance or low time efficiency during the pruning process. In this work, we propose an efficient and effective pruning method that simultaneously achieves high pruning performance and fast pruning speed with improved calibration efficiency. Our approach introduces two key innovations: (1) An activation cosine similarity loss-guided pruning metric, which considers the angular deviation of the output activation between the dense and pruned models. (2) An activation variance-guided pruning metric, which helps preserve semantic distinctions in output activations after pruning, enabling effective pruning with shorter input sequences. These two components can be readily combined to enhance LLM pruning in both accuracy and efficiency. Experimental results show that our method achieves up to an 18% reduction in perplexity and up to 63% decrease in pruning time on prevalent LLMs such as LLaMA, LLaMA-2, and OPT.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な拡張により、メモリと計算資源の需要は大幅に増大した。
LLMプルーニングの最近の進歩は、これらのモデルのサイズと計算コストを減らすことを目的としている。
しかしながら、既存の手法は、プルーニング過程において、最適プルーニング性能または低時間効率のいずれかに悩まされることが多い。
本研究では, キャリブレーション効率を向上し, 高いプルーニング性能と高速プルーニング速度を同時に達成する, 効率的かつ効率的なプルーニング法を提案する。
提案手法では,(1)高密度モデルとプルーニングモデル間の出力活性化の角偏差を考慮した,活性化コサイン類似度損失誘導プルーニング指標を提案する。
2) プルーニング後の出力アクティベーションにおける意味的区別を保ち, 短い入力シーケンスで効果的なプルーニングを可能にするアクティベーション分散誘導プルーニングメトリック。
これらの2つの部品は容易に組み合わせて、LLMプルーニングを精度と効率の両方で向上させることができる。
実験の結果, LLaMA, LLaMA-2, OPTなどのLLMにおいて, パープレキシティが最大18%減少し, プルーニング時間が最大63%減少することがわかった。
関連論文リスト
- SlimGPT: Layer-wise Structured Pruning for Large Language Models [15.252798256418279]
Batched Greedy Pruning for rapid and near-optimal Pruning
インクリメンタルプルーニング比(Incrmental Pruning Ratio) - 非一様プルーニング戦略で、性能劣化を低減する。
LLaMAベンチマークの実験結果から,SlimGPTは他の手法よりも優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-12-24T02:49:50Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2024-06-10T02:47:55Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment [58.030196381554745]
大規模言語モデル (LLM) の刈り取りにおける重み付け重要度の評価を, 微粒化と粗粒化にマージする手法であるHybrid-fine Weight Importance Assessment (HyWIA) を導入する。
LLaMA-V1/V2, Vicuna, Baichuan, Bloomの様々なベンチマークによる大規模な実験により, 刈り込みLDMにおけるHyWIAの有効性が示された。
論文 参考訳(メタデータ) (2024-03-16T04:12:50Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。