論文の概要: SparseSwaps: Tractable LLM Pruning Mask Refinement at Scale
- arxiv url: http://arxiv.org/abs/2512.10922v1
- Date: Thu, 11 Dec 2025 18:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.543342
- Title: SparseSwaps: Tractable LLM Pruning Mask Refinement at Scale
- Title(参考訳): SparseSwaps: スケールでのトレーサブルLCMプルーニングマスクリファインメント
- Authors: Max Zimmer, Christophe Roux, Moritz Wagner, Deborah Hendrych, Sebastian Pokutta,
- Abstract要約: 本研究では,任意のプルーニングマスクから開始し,LLMスケールで効率的に動作させる,トラクタブルでシンプルな1-スワップアルゴリズムを提案する。
提案手法は,Wanda (Sun et al., 2023) 上での層当たりのプルーニング誤差を最大60%削減し,最先端のGPTアーキテクチャにおけるパープレキシティとゼロショット精度を一貫して向上させることを実証する。
- 参考スコア(独自算出の注目度): 22.25809500403244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The resource requirements of Neural Networks can be significantly reduced through pruning -- the removal of seemingly less important parameters. However, with the rise of Large Language Models (LLMs), full retraining to recover pruning-induced performance degradation is often prohibitive and classical approaches such as global magnitude pruning are suboptimal on Transformer architectures. State-of-the-art methods hence solve a layer-wise mask selection problem, the problem of finding a pruning mask which minimizes the per-layer pruning error on a small set of calibration data. Exactly solving this problem to optimality using Integer Programming (IP) solvers is computationally infeasible due to its combinatorial nature and the size of the search space, and existing approaches therefore rely on approximations or heuristics. In this work, we demonstrate that the mask selection problem can be made drastically more tractable at LLM scale. To that end, we decouple the rows by enforcing equal sparsity levels per row. This allows us to derive optimal 1-swaps (exchanging one kept and one pruned weight) that can be computed efficiently using the Gram matrix of the calibration data. Using these observations, we propose a tractable and simple 1-swap algorithm that warm starts from any pruning mask, runs efficiently on GPUs at LLM scale, and is essentially hyperparameter-free. We demonstrate that our approach reduces per-layer pruning error by up to 60% over Wanda (Sun et al., 2023) and consistently improves perplexity and zero-shot accuracy across state-of-the-art GPT architectures.
- Abstract(参考訳): ニューラルネットワークのリソース要件は、プルーニング(pruning)によって大幅に削減できる。
しかし、Large Language Models (LLMs) の台頭に伴い、プルーニングによる性能劣化の回復のための完全なリトレーニングは禁止されることが多く、大域的なプルーニングのような古典的なアプローチはトランスフォーマーアーキテクチャに準最適である。
したがって, キャリブレーションデータの小さなセットにおいて, 層当たりのプルーニング誤差を最小限に抑えるプルーニングマスクの発見という, 階層単位のマスク選択の問題が解決される。
Integer Programming (IP) ソルバを用いてこの問題を最適に解くことは、その組合せの性質と探索空間のサイズにより計算不可能であり、従って既存のアプローチは近似やヒューリスティックスに依存している。
本研究では, マスク選択問題をLLMスケールで大幅にトラクタブルにすることができることを示す。
その目的のために、各行に等間隔レベルを課すことで、行を分離する。
これにより、キャリブレーションデータのグラム行列を用いて効率的に計算できる最適な1-スワップを導出することができる。
これらの観測値を用いて、任意のプルーニングマスクからウォームスタートし、LLMスケールでGPU上で効率的に動作し、本質的にハイパーパラメータフリーな、トラクタブルでシンプルな1スワップアルゴリズムを提案する。
提案手法は,Wanda (Sun et al , 2023) を60%以上削減し, 最先端のGPTアーキテクチャにおけるパープレキシティとゼロショット精度を一貫して向上させる。
関連論文リスト
- Don't Be Greedy, Just Relax! Pruning LLMs via Frank-Wolfe [61.68406997155879]
State-of-the-art Large Language Model (LLM) プルーニング手法は階層的に動作し、階層ごとのプルーニングエラーを最小限に抑え、完全な再トレーニングを回避する。
既存の手法は、刈り上げ対象の重量相互作用を無視する欲求凸に依存する。
提案手法は, 層ごとのプルーニング誤差を大幅に低減し, 最先端のGPTアーキテクチャにおいて高いベースラインを達成し, メモリ効率を保っている。
論文 参考訳(メタデータ) (2025-10-15T16:13:44Z) - High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
論文 参考訳(メタデータ) (2025-05-11T13:18:03Z) - Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。