Fugu-MT 論文翻訳(概要): SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models

論文の概要: SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models

arxiv url: http://arxiv.org/abs/2503.07605v1
Date: Mon, 10 Mar 2025 17:59:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 16:15:12.608973
Title: SEAP: Training-free Sparse Expert Activation Pruning Unlock the Brainpower of Large Language Models
Title（参考訳）: SEAP: 大規模言語モデルのブレインパワーを解き放つ訓練不要なスパースエキスパートアクティベーション
Authors: Xun Liang, Hanyu Wang, Huayi Lai, Simin Niu, Shichao Song, Jiawei Yang, Jihao Zhao, Feiyu Xiong, Bo Tang, Zhiyu Li,
Abstract要約: 本稿では,タスク関連パラメータを選択的に保持し,推論オーバーヘッドを低減する訓練不要プルーニング手法であるSparse Expert Activation Pruning (SEAP)を紹介する。実験の結果,SEAPは競争精度を維持しながら計算オーバーヘッドを著しく低減することがわかった。
参考スコア（独自算出の注目度）: 17.483183039447564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models have achieved remarkable success across various natural language processing tasks, yet their high computational cost during inference remains a major bottleneck. This paper introduces Sparse Expert Activation Pruning (SEAP), a training-free pruning method that selectively retains task-relevant parameters to reduce inference overhead. Inspired by the clustering patterns of hidden states and activations in LLMs, SEAP identifies task-specific expert activation patterns and prunes the model while preserving task performance and enhancing computational efficiency. Experimental results demonstrate that SEAP significantly reduces computational overhead while maintaining competitive accuracy. Notably, at 50% pruning, SEAP surpasses both WandA and FLAP by over 20%, and at 20% pruning, it incurs only a 2.2% performance drop compared to the dense model. These findings highlight SEAP's scalability and effectiveness, making it a promising approach for optimizing large-scale LLMs.
Abstract（参考訳）: 大規模言語モデルは様々な自然言語処理タスクで顕著な成功を収めてきたが、推論時の計算コストは依然として大きなボトルネックとなっている。本稿では,タスク関連パラメータを選択的に保持し,推論オーバーヘッドを低減する訓練不要プルーニング手法であるSparse Expert Activation Pruning (SEAP)を紹介する。隠蔽状態のクラスタリングパターンとLCMのアクティベーションパターンにインスパイアされたSEAPは、タスク固有の専門家アクティベーションパターンを特定し、タスク性能を保ち、計算効率を向上する。実験の結果,SEAPは競争精度を維持しながら計算オーバーヘッドを著しく低減することがわかった。特に50%のプルーニングでは、SEAPはWandAとFLAPを20%以上上回り、20%以上のプルーニングでは、密度の高いモデルに比べてわずか2.2%のパフォーマンス低下しか生じない。これらの知見はSEAPのスケーラビリティと有効性を強調し、大規模LLMを最適化するための有望なアプローチである。

関連論文リスト

Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study [64.26593350748401]
MLLM(Multimodal Large Language Models)は印象的な機能を示す。 SLM(Small Language Models)からのMLLMの学習を主とするパラメータ削減技術本稿では, 構造物の刈り込みと効率的な回復訓練を組み合わせることで, 既存のMLLMを直接圧縮することを提案する。
論文参考訳（メタデータ） (2025-07-28T11:57:52Z)
PIP: Perturbation-based Iterative Pruning for Large Language Models [15.00536465178398]
PIP (Perturbation-based Iterative Pruning) は,大規模言語モデルを最適化する新しい二重ビュー構造化プルーニング手法である。勾配差の計算により、PIPはこれらの2つの見解の区別に苦慮している人たちを反復的に引き起こす。実験の結果,PIPは元のモデルの精度の85%以上を維持しつつ,パラメータ数を約20%削減できることがわかった。
論文参考訳（メタデータ） (2025-01-25T17:10:50Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。 ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文参考訳（メタデータ） (2024-07-30T06:33:44Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文参考訳（メタデータ） (2024-05-25T04:55:27Z)
LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-04-18T06:35:37Z)
MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric [57.3330687266266]
より小さな事前学習モデルを用いてCLIPモデルに等級に基づくプルーニングを適用すると、柔軟性が低下し、性能が低下することがわかった。 The Module-wise Pruning Error (MoPE) metric, we introduced a unified pruning framework for both pre-training and task-specific fine-tuning compression stage。
論文参考訳（メタデータ） (2024-03-12T17:24:26Z)
Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文参考訳（メタデータ） (2024-02-22T18:56:07Z)
Compresso: Structured Pruning with Collaborative Prompting Learns Compact Large Language Models [15.471290825100075]
我々はCompressoと呼ばれる大規模言語モデルを構築するための新しいパラダイムを導入する。提案手法は,資源効率の高いプルーニングアルゴリズムとLLM自体の協調により,学習過程における最適プルーニング決定を学習する。実験では、Compressoは様々な空間比でワンショットプルーニングベースラインを著しく上回り、それぞれ2.21%、11.43%、7.04%、および4.81%のスコアをコモンセンス推論、読解理解、MMLU、BBHベンチマークで達成している。
論文参考訳（メタデータ） (2023-10-08T05:16:28Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)
From Dense to Sparse: Contrastive Pruning for Better Pre-trained Language Model Compression [32.35855458528584]
ContrAstive Pruning (CAP) は一般的なフレームワークとして設計されており、構造化プルーニングと非構造化プルーニングの両方と互換性がある。 CAPは、特に非常に高頻度のシナリオにおいて、一貫して大幅な改善をもたらす。
論文参考訳（メタデータ） (2021-12-14T07:14:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。