Fugu-MT 論文翻訳(概要): DenoiseRotator: Enhance Pruning Robustness for LLMs via Importance Concentration

論文の概要: DenoiseRotator: Enhance Pruning Robustness for LLMs via Importance Concentration

arxiv url: http://arxiv.org/abs/2505.23049v1
Date: Thu, 29 May 2025 03:44:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:07.660197
Title: DenoiseRotator: Enhance Pruning Robustness for LLMs via Importance Concentration
Title（参考訳）: DenoiseRotator: 重要濃度を通したLDMのプロンニングロバスト性向上
Authors: Tianteng Gu, Bei Liu, Bo Xiao, Ke Zeng, Jiacheng Liu, Yanmin Qian,
Abstract要約: プルーニングは、重要でない重みを取り除き、大きな言語モデル(LLM)を圧縮するのに広く用いられる技法である。既存のプルーニング手法は主に、個々の重みの重要さを推定することに焦点を当てており、モデルの重要な能力を維持する能力を制限する。プルーの重みを単に選択するのではなく、パラメータの重要度を再分配して、モデルがプルーニングに本質的に適するようにする、という新しい視点を提案する。
参考スコア（独自算出の注目度）: 40.24224178891866
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pruning is a widely used technique to compress large language models (LLMs) by removing unimportant weights, but it often suffers from significant performance degradation - especially under semi-structured sparsity constraints. Existing pruning methods primarily focus on estimating the importance of individual weights, which limits their ability to preserve critical capabilities of the model. In this work, we propose a new perspective: rather than merely selecting which weights to prune, we first redistribute parameter importance to make the model inherently more amenable to pruning. By minimizing the information entropy of normalized importance scores, our approach concentrates importance onto a smaller subset of weights, thereby enhancing pruning robustness. We instantiate this idea through DenoiseRotator, which applies learnable orthogonal transformations to the model's weight matrices. Our method is model-agnostic and can be seamlessly integrated with existing pruning techniques such as Magnitude, SparseGPT, and Wanda. Evaluated on LLaMA3, Qwen2.5, and Mistral models under 50% unstructured and 2:4 semi-structured sparsity, DenoiseRotator consistently improves perplexity and zero-shot accuracy. For instance, on LLaMA3-70B pruned with SparseGPT at 2:4 semi-structured sparsity, DenoiseRotator reduces the perplexity gap to the dense model by 58%, narrowing the degradation from 8.1 to 3.4 points. Codes are available at https://github.com/Axel-gu/DenoiseRotator.
Abstract（参考訳）: プルーニング(Pruning)は、重要でない重みを取り除き、大きな言語モデル(LLM)を圧縮する手法として広く使われているが、特に半構造化された空間制約の下では、大きな性能劣化に悩まされることが多い。既存のプルーニング手法は主に、個々の重みの重要さを推定することに焦点を当てており、モデルの重要な能力を維持する能力を制限する。本研究では, プーンの重みを単に選択するのではなく, パラメータの重要度を再分配することで, プルーニングに本質的に対応できるモデルを提案する。正規化重要度スコアの情報エントロピーを最小化することにより、本手法は重みの小さなサブセットに重みを集中させ、プルーニングロバスト性を向上させる。モデルの重み行列に学習可能な直交変換を適用するDenoiseRotatorを通じて、このアイデアをインスタンス化する。本手法はモデルに依存しず,Magnitude, SparseGPT, Wandaなどの既存の刈り込み技術とシームレスに統合できる。 LLaMA3、Qwen2.5、Mistralモデルで50%非構造、2:4半構造空間で評価すると、DenoiseRotatorはパープレキシティとゼロショット精度を一貫して改善する。例えば、SparseGPTで2:4の半構造間隔で切断されたLLaMA3-70Bでは、DenoiseRotatorは密度モデルのパープレキシティギャップを58%減らし、分解を8.1から3.4ポイントに縮小する。コードはhttps://github.com/Axel-gu/DenoiseRotator.comで入手できる。

関連論文リスト

Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs [79.7618807098457]
大きな言語モデル(LLM)は多くのタスクにまたがって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実用的なデプロイメントに重大な計算上の課題をもたらします。本稿は,このような積極的関節切断を実現させる上で重要な,しばしば見落とされがちな側面として,残った重量の戦略的再初期化と調整があげられることを論じる。構造化プルーニングを中心としたLCM加速のためのフレームワークであるPangu Lightと、新しい重量再初期化技術を紹介する。
論文参考訳（メタデータ） (2025-05-26T15:57:08Z)
SwiftPrune: Hessian-Free Weight Pruning for Large Language Models [42.36642747110806]
訓練後のプルーニングは、大きな言語モデルを圧縮する鍵となる手法の1つである。 SwiftPruneはハードウェア効率のよいモデル圧縮を実現するヘッセンフリーウェイトプルーニング手法である。 SwiftPruneは数秒でプルーニングプロセスを完了し、既存のSOTAアプローチよりも平均12.29倍(最大56.02倍)のスピードアップを実現している。
論文参考訳（メタデータ） (2025-01-24T02:50:13Z)
Singular Value Scaling: Efficient Generative Model Compression via Pruned Weights Refinement [9.454314879815337]
生成モデルは、しばしば支配的な特異ベクトルを示し、微調整効率を阻害し、最適以下の性能をもたらす。 SVS(Singular Value Scaling, Singular Value Scaling, SVS)は, 両モデルタイプに適用可能な, プレナードウェイトを精製する多用途技術である。 SVSは、追加のトレーニングコストなしでモデルタイプ間の圧縮性能を改善する。
論文参考訳（メタデータ） (2024-12-23T08:40:08Z)
SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。 SLIMはモデル精度を最大5.66%(LLaMA-2-7B)に改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。また,小調整なしでSLIMと比較して,最大1.66%(LLaMA-2-13B)の精度向上を図ったPEFTレシピを提案する。
論文参考訳（メタデータ） (2024-10-12T18:36:07Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models [30.246821533532017]
数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
論文参考訳（メタデータ） (2023-11-08T18:59:54Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)
Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。 GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。 GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文参考訳（メタデータ） (2022-12-15T06:52:31Z)
CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。 CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。 CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文参考訳（メタデータ） (2022-07-28T16:13:28Z)
Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-10-01T10:03:57Z)
Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文参考訳（メタデータ） (2021-06-18T01:03:13Z)
Ultra-light deep MIR by trimming lottery tickets [1.2599533416395767]
抽選券仮説に基づくモデルプルーニング手法を提案する。提案手法は,精度を損なうことなく,最大90%のモデルパラメータを除去できることを示す。圧縮比が小さいほど、より軽量なモデルの方が重いモデルよりずっと優れているという驚くべき結果を確認します。
論文参考訳（メタデータ） (2020-07-31T17:30:28Z)
AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文参考訳（メタデータ） (2020-06-15T08:35:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。