論文の概要: SkipGPT: Dynamic Layer Pruning Reinvented with Token Awareness and Module Decoupling
- arxiv url: http://arxiv.org/abs/2506.04179v1
- Date: Wed, 04 Jun 2025 17:26:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.490461
- Title: SkipGPT: Dynamic Layer Pruning Reinvented with Token Awareness and Module Decoupling
- Title(参考訳): SkipGPT: Token Awareness と Module Decoupling で再発明された動的レイヤプルーニング
- Authors: Anhao Zhao, Fanghua Ye, Yingqi Fan, Junlong Tong, Zhiwei Fei, Hui Su, Xiaoyu Shen,
- Abstract要約: 我々は,大規模言語モデルを最適化する動的層プルーニングフレームワークであるSkipGPTを紹介する。
また,SkipGPTはモデルパラメータの40%以上を削減できることを示す。
- 参考スコア(独自算出の注目度): 16.742839354514512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) achieve remarkable performance across tasks but incur substantial computational costs due to their deep, multi-layered architectures. Layer pruning has emerged as a strategy to alleviate these inefficiencies, but conventional static pruning methods overlook two critical dynamics inherent to LLM inference: (1) horizontal dynamics, where token-level heterogeneity demands context-aware pruning decisions, and (2) vertical dynamics, where the distinct functional roles of MLP and self-attention layers necessitate component-specific pruning policies. We introduce SkipGPT, a dynamic layer pruning framework designed to optimize computational resource allocation through two core innovations: (1) global token-aware routing to prioritize critical tokens, and (2) decoupled pruning policies for MLP and self-attention components. To mitigate training instability, we propose a two-stage optimization paradigm: first, a disentangled training phase that learns routing strategies via soft parameterization to avoid premature pruning decisions, followed by parameter-efficient LoRA fine-tuning to restore performance impacted by layer removal. Extensive experiments demonstrate that SkipGPT reduces over 40% of model parameters while matching or exceeding the performance of the original dense model across benchmarks. By harmonizing dynamic efficiency with preserved expressivity, SkipGPT advances the practical deployment of scalable, resource-aware LLMs. Our code is publicly available at: https://github.com/EIT-NLP/SkipGPT.
- Abstract(参考訳): 大規模言語モデル (LLM) はタスク全体にわたって顕著なパフォーマンスを達成するが、その深い多層アーキテクチャのために計算コストが大幅に低下する。
レイヤープルーニングはこれらの非効率性を緩和する戦略として現れてきたが、従来の静的プルーニング手法では、(1)トークンレベルの不均一性がコンテキスト認識プルーニング決定を要求される水平力学と(2)垂直力学の2つの重要なダイナミクスを見落としている。
我々は,(1)重要なトークンを優先するグローバルトークン対応ルーティング,(2)MLPと自己保持コンポーネントの分離されたプルーニングポリシの2つのコアイノベーションを通じて,計算リソースの割り当てを最適化する動的レイヤプルーニングフレームワークであるSkipGPTを紹介した。
まず、ソフトパラメータ化によるルーティング戦略を学習し、早期のプルーニング決定を回避し、続いてパラメータ効率の高いLoRA微調整を行い、層除去によるパフォーマンスの回復を図る。
大規模な実験により、SkipGPTはモデルパラメータの40%以上を削減し、ベンチマーク間で元の高密度モデルの性能を一致または超えることを示した。
動的効率を保存表現性と調和させることにより、SkipGPTはスケーラブルでリソースを意識したLCMの実践的な展開を進める。
私たちのコードは、https://github.com/EIT-NLP/SkipGPTで公開されています。
関連論文リスト
- Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - How to Alleviate Catastrophic Forgetting in LLMs Finetuning? Hierarchical Layer-Wise and Element-Wise Regularization [15.434072331989878]
大きな言語モデル(LLM)は、強力な汎用言語能力を示す。
これらのモデルをドメイン固有のタスクで微調整すると、大惨な忘れがちになり、そこではモデルが事前訓練中に得られた重要な知識を上書きまたは失う。
本研究では,微調整時の一般知識の保存に不可欠なモデルパラメータの要素的重要性を計算するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T13:54:53Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。