Fugu-MT 論文翻訳(概要): Wanda++: Pruning Large Language Models via Regional Gradients

論文の概要: Wanda++: Pruning Large Language Models via Regional Gradients

arxiv url: http://arxiv.org/abs/2503.04992v1
Date: Thu, 06 Mar 2025 21:42:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:14.808492
Title: Wanda++: Pruning Large Language Models via Regional Gradients
Title（参考訳）: Wanda++: 大規模言語モデルを地域的グラディエント経由で実行する
Authors: Yifan Yang, Kai Zhen, Bhavana Ganesh, Aram Galstyan, Goeric Huybrechts, Markus Müller, Jonas M. Kübler, Rupak Vignesh Swaminathan, Athanasios Mouchtaris, Sravan Babu Bodapati, Nathan Susanj, Zheng Zhang, Jack FitzGerald, Abhishek Kumar,
Abstract要約: 大規模言語モデル(LLM)プルーニングは、パフォーマンスへの影響を最小限に抑えて、推論スピードアップのための重要でない重みを取り除こうとする。本稿では,デコーダブロックレベルのtextbf 局所勾配を利用して,最先端の手法より優れた新しいプルーニングフレームワーク Wanda++ を提案する。提案手法は軽量で,1つのNVIDIA H100 GPU上で7B LLaMAモデルを10分以内でプルーニングする。
参考スコア（独自算出の注目度）: 44.18340126519112
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) pruning seeks to remove unimportant weights for inference speedup with minimal performance impact. However, existing methods often suffer from performance loss without full-model sparsity-aware fine-tuning. This paper presents Wanda++, a novel pruning framework that outperforms the state-of-the-art methods by utilizing decoder-block-level \textbf{regional} gradients. Specifically, Wanda++ improves the pruning score with regional gradients for the first time and proposes an efficient regional optimization method to minimize pruning-induced output discrepancies between the dense and sparse decoder output. Notably, Wanda++ improves perplexity by up to 32\% over Wanda in the language modeling task and generalizes effectively to downstream tasks. Further experiments indicate our proposed method is orthogonal to sparsity-aware fine-tuning, where Wanda++ can be combined with LoRA fine-tuning to achieve a similar perplexity improvement as the Wanda method. The proposed method is lightweight, pruning a 7B LLaMA model in under 10 minutes on a single NVIDIA H100 GPU.
Abstract（参考訳）: 大規模言語モデル(LLM)プルーニングは、パフォーマンスへの影響を最小限に抑えて、推論スピードアップのための重要でない重みを取り除こうとする。しかし、既存の手法は、フルモデルスペーサリティを意識しない微調整なしで、しばしば性能損失に悩まされる。本稿では,decoder-block-level \textbf{ Regionalal} 勾配を利用して,最先端の手法より優れた新しいプルーニングフレームワーク Wanda++ を提案する。具体的には、Wanda++は、局所勾配でプルーニングスコアを初めて改善し、高密度デコーダ出力とスパースデコーダ出力とのプルーニング誘起出力の相違を最小化する効率的な地域最適化法を提案する。特に、Wanda++は言語モデリングタスクにおいて、Wandaよりも最大32\%のパープレキシティを改善し、下流タスクに効果的に一般化する。さらに,提案手法は,Wanda++をLoRAファインチューニングと組み合わせることで,Wanda法と同様の難易度改善を実現することができる。提案手法は軽量で,1つのNVIDIA H100 GPU上で7B LLaMAモデルを10分以内でプルーニングする。

関連論文リスト

FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression [15.784158079414235]
FLAT-LLMは、アクティベーション空間の微細な低ランク変換に基づく、トレーニング不要な構造圧縮手法である。回復微調整なしで効率よく効果的な重量圧縮を実現し、数分でキャリブレーションを完了できる。
論文参考訳（メタデータ） (2025-05-29T19:42:35Z)
Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs [79.7618807098457]
大きな言語モデル(LLM)は多くのタスクにまたがって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実用的なデプロイメントに重大な計算上の課題をもたらします。本稿は,このような積極的関節切断を実現させる上で重要な,しばしば見落とされがちな側面として,残った重量の戦略的再初期化と調整があげられることを論じる。構造化プルーニングを中心としたLCM加速のためのフレームワークであるPangu Lightと、新しい重量再初期化技術を紹介する。
論文参考訳（メタデータ） (2025-05-26T15:57:08Z)
FASP: Fast and Accurate Structured Pruning of Large Language Models [24.185245582500876]
FASP(Fast and Accurate Structured Pruning)は,大規模言語モデル(LLM)のための新しい構造化プルーニングフレームワークである。 FASPはシーケンシャルなレイヤを相互にリンクする独自のプルーニング構造を採用しており、同時に前のレイヤで対応する行を削除しながら、追加のパフォーマンス損失を発生させることなく、ひとつのレイヤで列を削除できる。我々は,OPTおよびLLaMAモデルファミリー上でのFASPを評価し,最先端の手法と比較して,下流タスクの難易度と精度において優れた性能を示す。
論文参考訳（メタデータ） (2025-01-16T09:38:39Z)
DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文参考訳（メタデータ） (2024-11-21T12:02:39Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [14.310720048047136]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。 OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文参考訳（メタデータ） (2024-06-12T02:57:41Z)
Uncertainty-Guided Spatial Pruning Architecture for Efficient Frame Interpolation [19.077966606237897]
ビデオフレーム(VFI)モデルはすべての場所に畳み込み演算を適用し、簡単に動く領域で冗長な計算を行う。冗長計算を省略する不確実性誘導型空間プラニングアーキテクチャを開発した。提案手法は,複数のベンチマーク上でのFLOPの低下による最先端性能を実現する。
論文参考訳（メタデータ） (2023-07-31T10:33:07Z)
A Simple and Effective Pruning Approach for Large Language Models [58.716255689941896]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文参考訳（メタデータ） (2023-06-20T17:18:20Z)
DWRSeg: Rethinking Efficient Acquisition of Multi-scale Contextual Information for Real-time Semantic Segmentation [10.379708894083217]
本研究では,元の単一ステップ法を2段階に分割し,高効率なマルチスケール特徴抽出手法を提案する。 NVIDIA GeForce GTX 1080 TiカードのCityscapesテストセットの72.7%のmIoUを319.5 FPSで達成し、69.5 FPSと0.8% mIoUの最新の手法を超える。
論文参考訳（メタデータ） (2022-12-02T13:55:41Z)
Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-22T23:53:14Z)
Adapting Stepsizes by Momentumized Gradients Improves Optimization and Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文参考訳（メタデータ） (2021-06-22T03:13:23Z)
Community detection using fast low-cardinality semidefinite programming [94.4878715085334]
局所的な更新を一般化し、ライデン-k-カットから導かれる半定緩和を最大化する、新しい低カルチナリティアルゴリズムを提案する。提案アルゴリズムはスケーラビリティが高く,最先端のアルゴリズムより優れ,実時間では性能が向上し,追加コストがほとんどない。
論文参考訳（メタデータ） (2020-12-04T15:46:30Z)
Accelerating Sparse DNN Models without Hardware-Support via Tile-Wise Sparsity [12.643043455369297]
本稿では,既存の高密度アーキテクチャ上での遅延高速化を実現するアルゴリズム-ソフトウェア共設計プルーニング手法を提案する。我々はGPUテンソルコア上でのスパーシティパターンの実装と評価を行い,高密度モデル上での1.95倍の高速化を実現した。
論文参考訳（メタデータ） (2020-08-29T16:27:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。