論文の概要: UniPruning: Unifying Local Metric and Global Feedback for Scalable Sparse LLMs
- arxiv url: http://arxiv.org/abs/2510.03291v1
- Date: Mon, 29 Sep 2025 13:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.722233
- Title: UniPruning: Unifying Local Metric and Global Feedback for Scalable Sparse LLMs
- Title(参考訳): UniPruning: スケーラブルスパースLLMのためのローカルメトリックとグローバルフィードバックの統合
- Authors: Yizhuo Ding, Wanying Qu, Jiawei Geng, Wenqi Shao, Yanwei Fu,
- Abstract要約: 大規模言語モデル (LLM) は様々なタスクにまたがって高いパフォーマンスを達成するが、計算とメモリのコストは禁じられている。
We present UniPruning, a unified post-training pruning framework that with the speed of local saliency metrics and the stability of global coordinate。
UniPruningは、競争力または優れたパープレクティリティとゼロショットの精度を一貫して提供する。
- 参考スコア(独自算出の注目度): 46.12497343562301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) achieve strong performance across diverse tasks but face prohibitive computational and memory costs. Pruning offers a promising path by inducing sparsity while preserving architectural flexibility. However, existing methods struggle to balance efficiency and robustness: local metric approaches prune layer by layer but often collapse under high sparsity, whereas global feedback methods enforce consistency at the cost of expensive weight updates or restrictive semi-structured formats. We present UniPruning, a unified post-training pruning framework that combines the speed of local saliency metrics with the stability of global coordination, enabled by a mirror descent based optimization, all without updating model weights. UniPruning leverages fast layer-wise scoring and a lightweight global controller to allocate a single sparsity budget, supporting both unstructured and semi-structured N :M pruning within one framework. After a brief calibration, it can generate pruning masks for arbitrary sparsity levels in one shot, and adapts seamlessly to hardware-aware constraints. Extensive experiments on multiple pretrained LLM families and standard benchmarks show that UniPruning consistently delivers competitive or superior perplexity and zero-shot accuracy. Ablation studies further highlight the importance of mirror descent and local saliency anchoring. Overall, UniPruning provides an efficient, principled, and scalable solution for sparsifying large-scale LLMs. Our code is available at: https://github.com/RainbowQTT/UniPruning.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々なタスクにまたがって高いパフォーマンスを達成するが、計算とメモリのコストは禁じられている。
Pruningは、アーキテクチャの柔軟性を維持しながら、疎結合を誘導することで、有望なパスを提供する。
しかし、既存の手法は効率性とロバストさのバランスに苦慮している: 局所計量法は層ごとにプルーン層にアプローチするが、しばしば高い間隔で崩壊する一方、グローバルフィードバック法は高価な重み更新や制限的な半構造化フォーマットのコストで一貫性を強制する。
モデル重みを更新することなく、ミラー降下に基づく最適化により、局所的な塩分濃度測定の速度とグローバルコーディネーションの安定性を組み合わせ、統一的な訓練後プルーニングフレームワークUniPruningを提案する。
UniPruningは、高速なレイヤ単位のスコアリングと軽量なグローバルコントローラを活用して、単一の分散予算を割り当て、非構造化と半構造化のN :Mプルーニングの両方をひとつのフレームワーク内でサポートする。
短時間のキャリブレーションの後、任意の間隔レベルのプルーニングマスクを1ショットで生成し、ハードウェア対応の制約にシームレスに適応する。
複数の事前訓練されたLLMファミリーと標準ベンチマークの広範な実験は、UniPruningが競争力や優れたパープレキシティとゼロショットの精度を一貫して提供することを示している。
アブレーション研究は、ミラー降下と局所的なサリエンシアンカーの重要性をさらに強調している。
全体として、UniPruningは大規模LLMをスパース化するための効率的で原則的でスケーラブルなソリューションを提供する。
私たちのコードは、https://github.com/RainbowQTT/UniPruning.comで利用可能です。
関連論文リスト
- Stochastic Layer-wise Learning: Scalable and Efficient Alternative to Backpropagation [1.0285749562751982]
バックプロパゲーションは現代のディープラーニングを支えるものだが、グローバル同期への依存はスケーラビリティを制限し、高いメモリコストを発生させる。
対照的に、完全に局所的な学習ルールはより効率的であるが、コヒーレントなグローバルラーニングに必要な層間調整を維持するのに苦労することが多い。
本稿では,グローバルな目標を協調的なレイヤローカル更新に分解するレイヤワイズ学習アルゴリズムであるレイヤワイズ学習(SLL)を紹介する。
論文 参考訳(メタデータ) (2025-05-08T12:32:29Z) - Týr-the-Pruner: Unlocking Accurate 50% Structural Pruning for LLMs via Global Sparsity Distribution Optimization [15.027017826182659]
T'yr-the-Prunerは、効率的なエンドツーエンド検索ベースのグローバルな構造解析フレームワークである。
実効的な局所刈り取りと,スーパーネット構築を改善するための予測誤差蓄積手法を導入する。
その結果、T'yr-the-Prunerは最先端の構造解析を達成し、高密度モデルの性能の97%を維持しながら、Llama-3.1-70Bのパラメータの50%を除去した。
論文 参考訳(メタデータ) (2025-03-12T11:52:49Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - SparseLLM: Towards Global Pruning for Pre-trained Language Models [12.057369029549534]
本研究では,グローバルプルーニングプロセスを再定義する新しいフレームワークであるSparseLLMを提案する。
SparseLLMのアプローチは、LLMをモジュラ関数の連鎖として概念化し、問題の分解に補助変数を利用する。
高いスパーシティ・レシエーションにおいて、特に顕著なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-02-28T00:09:07Z) - Dynamic Regularized Sharpness Aware Minimization in Federated Learning: Approaching Global Consistency and Smooth Landscape [59.841889495864386]
フェデレートラーニング(FL)では、グローバルサーバの協調の下で、ローカルクライアントのクラスタがチェアリングされる。
クライアントは自身のオプティマに過度に適合する傾向にあり、グローバルな目標から非常に逸脱する。
tt Family FedSMOOは、グローバルな目的に対する局所的な最適性を保証するために動的正規化器を採用する。
理論解析により, tt Family FedSMOO は, 低境界一般化による高速$mathcalO (1/T)$収束率を達成することが示された。
論文 参考訳(メタデータ) (2023-05-19T10:47:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。