Fugu-MT 論文翻訳(概要): Towards Extreme Pruning of LLMs with Plug-and-Play Mixed Sparsity

論文の概要: Towards Extreme Pruning of LLMs with Plug-and-Play Mixed Sparsity

arxiv url: http://arxiv.org/abs/2503.11164v1
Date: Fri, 14 Mar 2025 08:05:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:29.223056
Title: Towards Extreme Pruning of LLMs with Plug-and-Play Mixed Sparsity
Title（参考訳）: プラグ・アンド・プレイ混合スパシティを用いたLCMの極端切断に向けて
Authors: Chi Xu, Gefei Zhang, Yantong Zhu, Luca Benini, Guosheng Hu, Yawei Li, Zhihong Zhang,
Abstract要約: 既存のプルーニング手法は主に、プルーニングをガイドするネットワークコンポーネントの重要性を測定するためにメトリクスを設計することに焦点を当てている。本稿では,FIM(Fiher Information Matrix)のトレースに基づく効率的な手法を提案する。そこで本研究では,異なる層に対する最適スパシティレベルを決定するために,プルーニング指向の進化的アルゴリズム(EA)を用いたMixed Sparsity Pruning (MSP)を提案する。
参考スコア（独自算出の注目度）: 32.668409666483626
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: N:M structured pruning is essential for large language models (LLMs) because it can remove less important network weights and reduce the memory and computation requirements. Existing pruning methods mainly focus on designing metrics to measure the importance of network components to guide pruning. Apart from the impact of these metrics, we observe that different layers have different sensitivities over the network performance. Thus, we propose an efficient method based on the trace of Fisher Information Matrix (FIM) to quantitatively measure and verify the different sensitivities across layers. Based on this, we propose Mixed Sparsity Pruning (MSP) which uses a pruning-oriented evolutionary algorithm (EA) to determine the optimal sparsity levels for different layers. To guarantee fast convergence and achieve promising performance, we utilize efficient FIM-inspired layer-wise sensitivity to initialize the population of EA. In addition, our MSP can work as a plug-and-play module, ready to be integrated into existing pruning methods. Extensive experiments on LLaMA and LLaMA-2 on language modeling and zero-shot tasks demonstrate our superior performance. In particular, in extreme pruning ratio (e.g. 75%), our method significantly outperforms existing methods in terms of perplexity (PPL) by orders of magnitude (Figure 1).
Abstract（参考訳）: N:M構造化プルーニングは、ネットワーク重みの低減とメモリおよび計算要求の低減により、大規模言語モデル(LLM)にとって不可欠である。既存のプルーニング手法は主に、プルーニングをガイドするネットワークコンポーネントの重要性を測定するためにメトリクスを設計することに焦点を当てている。これらの指標の影響とは別に、異なるレイヤがネットワーク性能に対して異なる感度を持つことが観察される。そこで本研究では,FIM(Fiher Information Matrix)のトレースに基づく効率的な手法を提案する。そこで本研究では,異なる層に対する最適スパシティレベルを決定するために,プルーニング指向の進化的アルゴリズム(EA)を用いたMixed Sparsity Pruning (MSP)を提案する。高速収束を保証し,期待できる性能を達成するため,効率的なFIM刺激層感度を利用してEAの人口を初期化する。さらに、当社のMSPはプラグイン・アンド・プレイモジュールとして機能し、既存のプルーニングメソッドに統合される準備ができています。言語モデリングとゼロショットタスクにおけるLLaMAとLLaMA-2の大規模な実験は、我々の優れた性能を示している。特に, 極端な刈り分け比(g 75%)では, パープレキシティ(PPL)において, 従来手法よりも桁違いに優れていた(第1図)。

関連論文リスト

PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文参考訳（メタデータ） (2025-07-10T16:47:25Z)
Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文参考訳（メタデータ） (2025-06-16T07:55:14Z)
LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling [52.1366057696919]
LOPは、ターゲットプルーニング制約から最適なプルーニング戦略を学ぶ、効率的なニューラルプルーニングフレームワークである。 LOPアプローチでは、自動回帰ニューラルネットワーク(NN)を使用して、ターゲットプルーニング制約に適応したレイヤワイズプルーニング戦略を直接予測する。実験の結果,LOPは最大3桁のスピードアップを達成しつつ,様々な測定値において最先端のプルーニング手法よりも優れていた。
論文参考訳（メタデータ） (2025-06-15T12:14:16Z)
SkipGPT: Dynamic Layer Pruning Reinvented with Token Awareness and Module Decoupling [16.742839354514512]
我々は,大規模言語モデルを最適化する動的層プルーニングフレームワークであるSkipGPTを紹介する。また,SkipGPTはモデルパラメータの40%以上を削減できることを示す。
論文参考訳（メタデータ） (2025-06-04T17:26:31Z)
SlimLLM: Accurate Structured Pruning for Large Language Models [36.84275777364218]
構造化プルーニングは,大規模言語モデルのパラメータを圧縮する有効な解法である。大規模言語モデルに対するSlimLLMという,効率的かつ高速な構造化プルーニング手法を提案する。
論文参考訳（メタデータ） (2025-05-28T03:01:28Z)
Maximum Redundancy Pruning: A Principle-Driven Layerwise Sparsity Allocation for LLMs [24.23702494859769]
大きな言語モデル(LLM)は印象的な機能を示しているが、その巨大なサイズは、現実世界のアプリケーションにデプロイする上で大きな課題をもたらしている。最近の空間割当手法は、しばしば反復や探索に基づいており、それが最適以下の性能に繋がる。我々は,最も冗長な層に浮かぶ反復的プルーニングアルゴリズムである冗長プルーニング(MRP)を提案する。
論文参考訳（メタデータ） (2025-03-24T06:17:30Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文参考訳（メタデータ） (2024-12-18T04:14:35Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。 ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文参考訳（メタデータ） (2024-10-15T16:53:26Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文参考訳（メタデータ） (2024-07-23T08:40:27Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文参考訳（メタデータ） (2024-05-25T04:55:27Z)
One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文参考訳（メタデータ） (2023-10-14T05:43:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。