論文の概要: DenoiseRotator: Enhance Pruning Robustness for LLMs via Importance Concentration
- arxiv url: http://arxiv.org/abs/2505.23049v1
- Date: Thu, 29 May 2025 03:44:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.660197
- Title: DenoiseRotator: Enhance Pruning Robustness for LLMs via Importance Concentration
- Title(参考訳): DenoiseRotator: 重要濃度を通したLDMのプロンニングロバスト性向上
- Authors: Tianteng Gu, Bei Liu, Bo Xiao, Ke Zeng, Jiacheng Liu, Yanmin Qian,
- Abstract要約: プルーニングは、重要でない重みを取り除き、大きな言語モデル(LLM)を圧縮するのに広く用いられる技法である。
既存のプルーニング手法は主に、個々の重みの重要さを推定することに焦点を当てており、モデルの重要な能力を維持する能力を制限する。
プルーの重みを単に選択するのではなく、パラメータの重要度を再分配して、モデルがプルーニングに本質的に適するようにする、という新しい視点を提案する。
- 参考スコア(独自算出の注目度): 40.24224178891866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pruning is a widely used technique to compress large language models (LLMs) by removing unimportant weights, but it often suffers from significant performance degradation - especially under semi-structured sparsity constraints. Existing pruning methods primarily focus on estimating the importance of individual weights, which limits their ability to preserve critical capabilities of the model. In this work, we propose a new perspective: rather than merely selecting which weights to prune, we first redistribute parameter importance to make the model inherently more amenable to pruning. By minimizing the information entropy of normalized importance scores, our approach concentrates importance onto a smaller subset of weights, thereby enhancing pruning robustness. We instantiate this idea through DenoiseRotator, which applies learnable orthogonal transformations to the model's weight matrices. Our method is model-agnostic and can be seamlessly integrated with existing pruning techniques such as Magnitude, SparseGPT, and Wanda. Evaluated on LLaMA3, Qwen2.5, and Mistral models under 50% unstructured and 2:4 semi-structured sparsity, DenoiseRotator consistently improves perplexity and zero-shot accuracy. For instance, on LLaMA3-70B pruned with SparseGPT at 2:4 semi-structured sparsity, DenoiseRotator reduces the perplexity gap to the dense model by 58%, narrowing the degradation from 8.1 to 3.4 points. Codes are available at https://github.com/Axel-gu/DenoiseRotator.
- Abstract(参考訳): プルーニング(Pruning)は、重要でない重みを取り除き、大きな言語モデル(LLM)を圧縮する手法として広く使われているが、特に半構造化された空間制約の下では、大きな性能劣化に悩まされることが多い。
既存のプルーニング手法は主に、個々の重みの重要さを推定することに焦点を当てており、モデルの重要な能力を維持する能力を制限する。
本研究では, プーンの重みを単に選択するのではなく, パラメータの重要度を再分配することで, プルーニングに本質的に対応できるモデルを提案する。
正規化重要度スコアの情報エントロピーを最小化することにより、本手法は重みの小さなサブセットに重みを集中させ、プルーニングロバスト性を向上させる。
モデルの重み行列に学習可能な直交変換を適用するDenoiseRotatorを通じて、このアイデアをインスタンス化する。
本手法はモデルに依存しず,Magnitude, SparseGPT, Wandaなどの既存の刈り込み技術とシームレスに統合できる。
LLaMA3、Qwen2.5、Mistralモデルで50%非構造、2:4半構造空間で評価すると、DenoiseRotatorはパープレキシティとゼロショット精度を一貫して改善する。
例えば、SparseGPTで2:4の半構造間隔で切断されたLLaMA3-70Bでは、DenoiseRotatorは密度モデルのパープレキシティギャップを58%減らし、分解を8.1から3.4ポイントに縮小する。
コードはhttps://github.com/Axel-gu/DenoiseRotator.comで入手できる。
関連論文リスト
- Singular Value Scaling: Efficient Generative Model Compression via Pruned Weights Refinement [9.454314879815337]
生成モデルは、しばしば支配的な特異ベクトルを示し、微調整効率を阻害し、最適以下の性能をもたらす。
SVS(Singular Value Scaling, Singular Value Scaling, SVS)は, 両モデルタイプに適用可能な, プレナードウェイトを精製する多用途技術である。
SVSは、追加のトレーニングコストなしでモデルタイプ間の圧縮性能を改善する。
論文 参考訳(メタデータ) (2024-12-23T08:40:08Z) - SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。
SLIMはモデル精度を最大5.66%(LLaMA-2-7B)に改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。
また,小調整なしでSLIMと比較して,最大1.66%(LLaMA-2-13B)の精度向上を図ったPEFTレシピを提案する。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models [30.246821533532017]
数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。
グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
論文 参考訳(メタデータ) (2023-11-08T18:59:54Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。