論文の概要: From Local to Global: Revisiting Structured Pruning Paradigms for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.18030v1
- Date: Mon, 20 Oct 2025 19:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.528472
- Title: From Local to Global: Revisiting Structured Pruning Paradigms for Large Language Models
- Title(参考訳): ローカルからグローバルへ:大規模言語モデルのための構造化プルーニングパラダイムの再検討
- Authors: Ziyan Wang, Enmao Diao, Qi Le, Pu Wang, Minwoo Lee, Shu-ping Yeh, Evgeny Stupachenko, Hao Feng, Li Yang,
- Abstract要約: GISP-Global Iterative Structured Pruningは、ブロックワイド正規化により、構造レベルで集約された1次、損失ベースの重要な重み付けを用いて、注目ヘッドとチャネルを除去する。
反復的なスケジュールは、ワンショットプルーニングではなく、高い間隔で精度を安定させ、中間微調整を必要とせず、パープレキシティの崩壊を緩和する。
重要度はモデルレベルの損失によって定義されるため、GISPはタスク固有の目的を自然にサポートしている。
- 参考スコア(独自算出の注目度): 27.774067682004745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured pruning is a practical approach to deploying large language models (LLMs) efficiently, as it yields compact, hardware-friendly architectures. However, the dominant local paradigm is task-agnostic: by optimizing layer-wise reconstruction rather than task objectives, it tends to preserve perplexity or generic zero-shot behavior but fails to capitalize on modest task-specific calibration signals, often yielding limited downstream gains. We revisit global structured pruning and present GISP-Global Iterative Structured Pruning-a post-training method that removes attention heads and MLP channels using first-order, loss-based important weights aggregated at the structure level with block-wise normalization. An iterative schedule, rather than one-shot pruning, stabilizes accuracy at higher sparsity and mitigates perplexity collapse without requiring intermediate fine-tuning; the pruning trajectory also forms nested subnetworks that support a "prune-once, deploy-many" workflow. Furthermore, because importance is defined by a model-level loss, GISP naturally supports task-specific objectives; we instantiate perplexity for language modeling and a margin-based objective for decision-style tasks. Extensive experiments show that across Llama2-7B/13B, Llama3-8B, and Mistral-0.3-7B, GISP consistently lowers WikiText-2 perplexity and improves downstream accuracy, with especially strong gains at 40-50% sparsity; on DeepSeek-R1-Distill-Llama-3-8B with GSM8K, task-aligned calibration substantially boosts exact-match accuracy.
- Abstract(参考訳): 構造化プルーニング(Structured pruning)は、大規模言語モデル(LLM)を効率的にデプロイするための実践的なアプローチである。
しかし、主な局所パラダイムはタスク非依存であり、タスク目的よりも階層的再構築を最適化することで、パープレキシティや汎用的なゼロショット動作を保ちがちであるが、控えめなタスク固有のキャリブレーション信号に乗じることに失敗し、しばしば下流の利得が制限される。
我々は,グローバルな構造化プルーニングとGISP-グローバルな反復的構造的プルーニングについて再検討する。これは,ブロックワイド正規化による構造レベルで集約された1次的損失に基づく重要な重み付けを用いて,アテンションヘッドとMPPチャネルを除去するポストトレーニング手法である。
反復的なスケジュールは、ワンショットプルーニングではなく、高い間隔で精度を安定させ、中間的な微調整を必要とせずにパープレキシティの崩壊を緩和する。
さらに、重要度はモデルレベルの損失によって定義されるので、GISPはタスク固有の目的を自然にサポートします。
広範囲にわたる実験の結果、Llama2-7B/13B、Llama3-8B、Mistral-0.3-7Bにおいて、GISPはWikiText-2の難易度を一貫して低下させ、下流の精度を向上し、特に40-50%の精度で向上した。
関連論文リスト
- High-Layer Attention Pruning with Rescaling [14.141903038286362]
プルーニングは大規模言語モデル(LLM)の圧縮に非常に効果的な手法である
本稿では,モデル上層における注意を戦略的に喚起する新しいプルーニングアルゴリズムを提案する。
我々は, LLaMA3.1-8B, Mistral-7B-v0.3, Qwen2-7B, Gemma2-9Bを含む広範囲のLLMについて総合的な実験を行った。
論文 参考訳(メタデータ) (2025-07-02T17:15:05Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Týr-the-Pruner: Structural Pruning LLMs via Global Sparsity Distribution Optimization [16.627496870394456]
T'yr-the-Prunerは、効率的なエンドツーエンド検索ベースのグローバルな構造解析フレームワークである。
実効的な局所刈り取りと,スーパーネット構築を改善するための予測誤差蓄積手法を導入する。
以上の結果から,T'yr-the-Prunerは高密度モデルの性能の97%を保ちながら,最先端構造解析を実現していることがわかった。
論文 参考訳(メタデータ) (2025-03-12T11:52:49Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - LLM-BIP: Structured Pruning for Large Language Models with Block-Wise Forward Importance Propagation [0.0]
ブロック単位の重要スコアの伝搬に基づくより正確なプルーニング指標を提案する。
我々は,LLaMA-7B,Vicuna-7B,LLaMA-13Bを用いて,共通ゼロショットタスクを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-12-09T11:57:16Z) - DepGraph: Towards Any Structural Pruning [68.40343338847664]
我々は、CNN、RNN、GNN、Transformersのような任意のアーキテクチャの一般的な構造解析について研究する。
本稿では,階層間の依存関係を明示的にモデル化し,包括的にグループ化してプルーニングを行う汎用かつ完全自動な手法であるemphDependency Graph(DepGraph)を提案する。
本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスクに関する手法を広範囲に評価し,言語用LSTMと並行して示す。
論文 参考訳(メタデータ) (2023-01-30T14:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。