論文の概要: ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning
- arxiv url: http://arxiv.org/abs/2603.05878v1
- Date: Fri, 06 Mar 2026 03:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.99456
- Title: ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning
- Title(参考訳): ROSE: より正確なワンショット大言語モデル作成のためのSparseGPTのリオーダー
- Authors: Mingluo Su, Huan Wang,
- Abstract要約: プルーニングは大規模言語モデルのパラメータを減らす効果的な方法として広く認識されている。
本稿では,SparseGPTフレームワークにおける刈り取り順序の影響について検討する。
本稿では,より早期に刈り取るべき潜在的な刈り込み誤差が大きい重みを優先するリオーダーSparseGPT法であるROSEを提案する。
- 参考スコア(独自算出の注目度): 5.864475030577771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pruning is widely recognized as an effective method for reducing the parameters of large language models (LLMs), potentially leading to more efficient deployment and inference. One classic and prominent path of LLM one-shot pruning is to leverage second-order gradients (i.e., Hessian), represented by the pioneering work SparseGPT. However, the predefined left-to-right pruning order in SparseGPT leads to suboptimal performance when the weights exhibit columnar patterns. This paper studies the effect of pruning order under the SparseGPT framework. The analyses lead us to propose ROSE, a reordered SparseGPT method that prioritizes weights with larger potential pruning errors to be pruned earlier. ROSE first performs pre-pruning to identify candidate weights for removal, and estimates both column and block pruning loss. Subsequently, two-level reordering is performed: columns within each block are reordered in descending order of column loss, while blocks are reordered based on block loss. We introduce the relative range of block loss as a metric to identify columnar layers, enabling adaptive reordering across the entire model. Substantial empirical results on prevalent LLMs (LLaMA2-7B/13B/70B, LLaMA3-8B, Mistral-7B) demonstrate that ROSE surpasses the original SparseGPT and other counterpart pruning methods. Our code is available at https://github.com/mingluo-su/ROSE.
- Abstract(参考訳): プルーニングは、大きな言語モデル(LLM)のパラメータを減らす効果的な方法として広く認識されており、より効率的なデプロイメントと推論につながる可能性がある。
LLMワンショットプルーニングの古典的で顕著な道の1つは、先駆的な SparseGPT で表される2階勾配(ヘッセン)を活用することである。
しかし,SparseGPTにおける左から右へのプルーニング順序は,重みが柱状パターンを示す場合,最適以下となる。
本稿では,SparseGPTフレームワークにおける刈り取り順序の影響について検討する。
提案手法は,より早期に刈り取られる可能性が大きい重みを優先するリオーダーSparseGPT法であるROSEを提案する。
ROSEはまずプレプルーニングを行い、除去のための候補重量を特定し、カラムとブロックのプルーニング損失の両方を推定する。
その後、各ブロック内の列を列損失の順に並べ替え、ブロックをブロック損失に基づいて並べ替える。
本稿では,ブロック損失の相対範囲を,列状層を識別する指標として導入し,モデル全体にわたって適応的な並べ替えを可能にする。
LLM (LLaMA2-7B/13B/70B, LLaMA3-8B, Mistral-7B) は, ROSEが元のSparseGPTおよび他のプルーニング法を超えることを示す。
私たちのコードはhttps://github.com/mingluo-su/ROSE.comで公開されています。
関連論文リスト
- Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - Two-Stage Regularization-Based Structured Pruning for LLMs [32.65416603453818]
TRSP: 大規模言語モデルのための2段階規則化に基づく構造化プルーニング。
TRSPは, 再学習を必要とせず, 強い階層構造を有するプルーニング法よりも優れた性能を示すことを示す。
層ワイドプルーニング法として、注目すべきエンドツーエンドアクセラレーションを提供する。
論文 参考訳(メタデータ) (2025-05-23T12:40:59Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - ARB-LLM: Alternating Refined Binarizations for Large Language Models [82.24826360906341]
ARB-LLMは、大規模言語モデル(LLM)に適した新しい1ビット後トレーニング量子化(PTQ)技術である。
ARB-LLM$_textRC$は同じサイズのFP16モデルを超えるのは初めてです。
論文 参考訳(メタデータ) (2024-10-04T03:50:10Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Beyond Size: How Gradients Shape Pruning Decisions in Large Language Models [30.246821533532017]
数十億のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットであり、性能を損なうことなくモデルの重みを取り除く。
グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
論文 参考訳(メタデータ) (2023-11-08T18:59:54Z) - Guiding AMR Parsing with Reverse Graph Linearization [45.37129580211495]
本稿では,AMR解析のためのReverse Graph Linearization(RGL)フレームワークを提案する。
RGLは、AMRグラフのデフォルトおよび逆線形化順序を定義する。
提案手法は, AMR 2.0 と AMR 3.0 データセットにおいて, 従来最高の AMR 解析モデルである 0.8 と 0.5 の Smatch スコアをそれぞれ上回り, 構造損失蓄積の問題を著しく軽減することを示す。
論文 参考訳(メタデータ) (2023-10-13T05:03:13Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。