論文の概要: Wanda++: Pruning Large Language Models via Regional Gradients
- arxiv url: http://arxiv.org/abs/2503.04992v1
- Date: Thu, 06 Mar 2025 21:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:16.338730
- Title: Wanda++: Pruning Large Language Models via Regional Gradients
- Title(参考訳): Wanda++: 大規模言語モデルを地域的グラディエント経由で実行する
- Authors: Yifan Yang, Kai Zhen, Bhavana Ganesh, Aram Galstyan, Goeric Huybrechts, Markus Müller, Jonas M. Kübler, Rupak Vignesh Swaminathan, Athanasios Mouchtaris, Sravan Babu Bodapati, Nathan Susanj, Zheng Zhang, Jack FitzGerald, Abhishek Kumar,
- Abstract要約: 大規模言語モデル(LLM)プルーニングは、パフォーマンスへの影響を最小限に抑えて、推論スピードアップのための重要でない重みを取り除こうとする。
本稿では,デコーダブロックレベルのtextbf 局所勾配を利用して,最先端の手法より優れた新しいプルーニングフレームワーク Wanda++ を提案する。
提案手法は軽量で,1つのNVIDIA H100 GPU上で7B LLaMAモデルを10分以内でプルーニングする。
- 参考スコア(独自算出の注目度): 44.18340126519112
- License:
- Abstract: Large Language Models (LLMs) pruning seeks to remove unimportant weights for inference speedup with minimal performance impact. However, existing methods often suffer from performance loss without full-model sparsity-aware fine-tuning. This paper presents Wanda++, a novel pruning framework that outperforms the state-of-the-art methods by utilizing decoder-block-level \textbf{regional} gradients. Specifically, Wanda++ improves the pruning score with regional gradients for the first time and proposes an efficient regional optimization method to minimize pruning-induced output discrepancies between the dense and sparse decoder output. Notably, Wanda++ improves perplexity by up to 32\% over Wanda in the language modeling task and generalizes effectively to downstream tasks. Further experiments indicate our proposed method is orthogonal to sparsity-aware fine-tuning, where Wanda++ can be combined with LoRA fine-tuning to achieve a similar perplexity improvement as the Wanda method. The proposed method is lightweight, pruning a 7B LLaMA model in under 10 minutes on a single NVIDIA H100 GPU.
- Abstract(参考訳): 大規模言語モデル(LLM)プルーニングは、パフォーマンスへの影響を最小限に抑えて、推論スピードアップのための重要でない重みを取り除こうとする。
しかし、既存の手法は、フルモデルスペーサリティを意識しない微調整なしで、しばしば性能損失に悩まされる。
本稿では,decoder-block-level \textbf{ Regionalal} 勾配を利用して,最先端の手法より優れた新しいプルーニングフレームワーク Wanda++ を提案する。
具体的には、Wanda++は、局所勾配でプルーニングスコアを初めて改善し、高密度デコーダ出力とスパースデコーダ出力とのプルーニング誘起出力の相違を最小化する効率的な地域最適化法を提案する。
特に、Wanda++は言語モデリングタスクにおいて、Wandaよりも最大32\%のパープレキシティを改善し、下流タスクに効果的に一般化する。
さらに,提案手法は,Wanda++をLoRAファインチューニングと組み合わせることで,Wanda法と同様の難易度改善を実現することができる。
提案手法は軽量で,1つのNVIDIA H100 GPU上で7B LLaMAモデルを10分以内でプルーニングする。
関連論文リスト
- FASP: Fast and Accurate Structured Pruning of Large Language Models [24.185245582500876]
FASP(Fast and Accurate Structured Pruning)は,大規模言語モデル(LLM)のための新しい構造化プルーニングフレームワークである。
FASPはシーケンシャルなレイヤを相互にリンクする独自のプルーニング構造を採用しており、同時に前のレイヤで対応する行を削除しながら、追加のパフォーマンス損失を発生させることなく、ひとつのレイヤで列を削除できる。
我々は,OPTおよびLLaMAモデルファミリー上でのFASPを評価し,最先端の手法と比較して,下流タスクの難易度と精度において優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-16T09:38:39Z) - DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。
本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文 参考訳(メタデータ) (2024-11-21T12:02:39Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [14.310720048047136]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文 参考訳(メタデータ) (2024-06-12T02:57:41Z) - Uncertainty-Guided Spatial Pruning Architecture for Efficient Frame
Interpolation [19.077966606237897]
ビデオフレーム(VFI)モデルはすべての場所に畳み込み演算を適用し、簡単に動く領域で冗長な計算を行う。
冗長計算を省略する不確実性誘導型空間プラニングアーキテクチャを開発した。
提案手法は,複数のベンチマーク上でのFLOPの低下による最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-31T10:33:07Z) - A Simple and Effective Pruning Approach for Large Language Models [58.716255689941896]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文 参考訳(メタデータ) (2023-06-20T17:18:20Z) - DWRSeg: Rethinking Efficient Acquisition of Multi-scale Contextual
Information for Real-time Semantic Segmentation [10.379708894083217]
本研究では,元の単一ステップ法を2段階に分割し,高効率なマルチスケール特徴抽出手法を提案する。
NVIDIA GeForce GTX 1080 TiカードのCityscapesテストセットの72.7%のmIoUを319.5 FPSで達成し、69.5 FPSと0.8% mIoUの最新の手法を超える。
論文 参考訳(メタデータ) (2022-12-02T13:55:41Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。