論文の概要: SlimLLM: Accurate Structured Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.22689v1
- Date: Wed, 28 May 2025 03:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.440821
- Title: SlimLLM: Accurate Structured Pruning for Large Language Models
- Title(参考訳): SlimLLM: 大規模言語モデルのための正確な構造化プルーニング
- Authors: Jialong Guo, Xinghao Chen, Yehui Tang, Yunhe Wang,
- Abstract要約: 構造化プルーニングは,大規模言語モデルのパラメータを圧縮する有効な解法である。
大規模言語モデルに対するSlimLLMという,効率的かつ高速な構造化プルーニング手法を提案する。
- 参考スコア(独自算出の注目度): 36.84275777364218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models(LLMs) have garnered significant attention and demonstrated impressive capabilities in a wide range of applications. However, due to their enormous computational costs, the deployment and application of LLMs are often severely limited. To address this issue, structured pruning is an effective solution to compress the parameters of LLMs. Determining the importance of each sub-module in LLMs and minimizing performance loss are critical issues that need to be carefully addressed in structured pruning. In this paper, we propose an effective and fast structured pruning method named SlimLLM for large language models. For channel and attention head pruning, we evaluate the importance based on the entire channel or head, rather than merely aggregating the importance of individual elements within a sub-module. This approach enables a more holistic consideration of the interdependence among elements within the sub-module. In addition, we design a simple linear regression strategy for the output matrix to quickly recover performance. We also propose layer-based importance ratio to determine the pruning ratio for each layer. Based on the LLaMA benchmark results, our SlimLLM outperforms other methods and achieves state-of-the-art performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は大きな注目を集め、広範囲のアプリケーションで印象的な能力を発揮している。
しかし、計算コストが膨大であるため、LLMの展開と適用は厳しく制限されることが多い。
この問題に対処するため、構造化プルーニングはLLMのパラメータを圧縮する有効な方法である。
LLMにおける各サブモジュールの重要性の決定と性能損失の最小化は、構造化プルーニングにおいて慎重に対処する必要がある重要な問題である。
本稿では,SlimLLM という,大規模言語モデルのための効率的かつ高速な構造化プルーニング手法を提案する。
チャネルおよびアテンションヘッドプルーニングでは、サブモジュール内の個々の要素の重要性を単に集約するのではなく、チャネル全体やヘッドに基づいて重要度を評価する。
このアプローチは、部分加群内の要素間の相互依存をより包括的に考慮することを可能にする。
さらに,出力行列の線形回帰戦略を設計し,高速に性能を回復する。
また, 各層に対するプルーニング比を決定するために, 層単位の重要度比も提案する。
LLaMAベンチマークの結果に基づいて、SlimLLMは他のメソッドよりも優れ、最先端のパフォーマンスを実現しています。
関連論文リスト
- Towards Extreme Pruning of LLMs with Plug-and-Play Mixed Sparsity [32.668409666483626]
既存のプルーニング手法は主に、プルーニングをガイドするネットワークコンポーネントの重要性を測定するためにメトリクスを設計することに焦点を当てている。
本稿では,FIM(Fiher Information Matrix)のトレースに基づく効率的な手法を提案する。
そこで本研究では,異なる層に対する最適スパシティレベルを決定するために,プルーニング指向の進化的アルゴリズム(EA)を用いたMixed Sparsity Pruning (MSP)を提案する。
論文 参考訳(メタデータ) (2025-03-14T08:05:49Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T17:04:18Z) - Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文 参考訳(メタデータ) (2023-12-19T09:23:48Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。