論文の概要: Beyond Manually Designed Pruning Policies with Second-Level Performance Prediction: A Pruning Framework for LLMs
- arxiv url: http://arxiv.org/abs/2508.02381v1
- Date: Mon, 04 Aug 2025 13:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.344133
- Title: Beyond Manually Designed Pruning Policies with Second-Level Performance Prediction: A Pruning Framework for LLMs
- Title(参考訳): 2レベルパフォーマンス予測を備えた手作業で設計したPruning Policies: LLMのためのPruning Framework
- Authors: Zuxin Ma, Yunhe Cui, Yongbin Qin,
- Abstract要約: 非均一な構造化ネットワークプルーニング手法は、冗長なチャネルやレイヤを排除することで、LLM(Large Language Model)のサイズを減らすことができる。
既存の一様でないメソッドは、手動で設計されたプルーニングポリシーに大きく依存している。
PPF(Predictive Pruning Framework)は,第2レベルの性能予測によって手作業による設計依存を解消する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 1.6327294840798465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-uniform structured network pruning methods can effectively reduce Large Language Model (LLM) size by eliminating redundant channels or layers, offering lower performance degradation than uniform strategies. However, existing non-uniform methods rely heavily on manually designed pruning policies (e.g., layer importance and scaling factors), and therefore cannot efficiently adapt to scenarios with dynamic pruning ratio requirements. Additionly, a critical bottleneck -- the time-consuming evaluation of pruning policies -- further limits the feasibility of iteratively and dynamically finding optimal pruning policies. To address these limitations, we propose PPF (Predictive Pruning Framework), a novel pruning framework for LLMs that eliminates manual design dependencies via second-level performance prediction. PPF not only supports real-time pruning decisions under dynamic pruning ratios but is also applicable to static pruning scenarios. It employs an agent for producing adaptive and real-time pruning actions, while a lightweight performance predictor that can evaluate a pruning policy in seconds, significantly speeding up the iterative optimization process. Experiments on Llama2-7B and Llama3-8B show that PPF can generate dynamic/static pruning policies and it reduces perplexity by up to 33.4% (dynamic pruning) and 84.78% (static pruning) over existing methods, outperforming manually designed pruning policies. The performance predictor achieves second-level performance prediction with high accuracy (prediction error < 0.0011). It reduces the mean evaluation latency from minute-level (1 minute and 38.02 seconds of test-set evaluation methods) to second-level (1.52 second), achieving over 64 times speedup. Our code will be available at https://github.com/Ma-zx/PPF .
- Abstract(参考訳): 非一様構造型ネットワークプルーニング法は、冗長なチャネルや層を排除し、一様戦略よりも性能劣化を抑えることにより、LLM(Large Language Model)のサイズを効果的に削減することができる。
しかし、既存の一様でない手法は、手動で設計したプルーニングポリシー(例えば、レイヤーの重要度とスケーリングの要因)に大きく依存しているため、動的プルーニング比の要求を満たすシナリオに効率的に適応できない。
さらに、プルーニングポリシーの時間的な評価である重要なボトルネックは、反復的かつ動的に最適なプルーニングポリシーを見つける可能性をさらに制限します。
これらの制約に対処するため,第2レベルの性能予測による手動設計依存を排除した LLM のための新しいプルーニングフレームワーク PPF (Predictive Pruning Framework) を提案する。
PPFは動的プルーニング比でリアルタイムプルーニング決定をサポートするだけでなく、静的プルーニングシナリオにも適用できる。
適応的でリアルタイムなプルーニングアクションを生成するエージェントと、プルーニングポリシーを数秒で評価できる軽量なパフォーマンス予測器を採用し、反復最適化プロセスを著しく高速化する。
Llama2-7B と Llama3-8B の実験では、PPF は動的および静的なプルーニングポリシーを生成でき、既存の方法よりも最大33.4%(動的プルーニング)と84.78%(静的プルーニング)のパープレキシティを低減し、手動で設計されたプルーニングポリシーより優れた性能を発揮する。
性能予測器は、高い精度で第2レベルの性能予測を行う(予測誤差< 0.0011)。
平均評価遅延を分単位(テストセット評価法では1分38.02秒)から2段階(1.52秒)に短縮し、64倍のスピードアップを達成する。
私たちのコードはhttps://github.com/Ma-zx/PPFで公開されます。
関連論文リスト
- LOP: Learning Optimal Pruning for Efficient On-Demand MLLMs Scaling [52.1366057696919]
LOPは、ターゲットプルーニング制約から最適なプルーニング戦略を学ぶ、効率的なニューラルプルーニングフレームワークである。
LOPアプローチでは、自動回帰ニューラルネットワーク(NN)を使用して、ターゲットプルーニング制約に適応したレイヤワイズプルーニング戦略を直接予測する。
実験の結果,LOPは最大3桁のスピードアップを達成しつつ,様々な測定値において最先端のプルーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-15T12:14:16Z) - Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - PMPO: Probabilistic Metric Prompt Optimization for Small and Large Language Models [0.15146068448101743]
PMPOはトークンレベルのクロスエントロピー損失を直接的かつ軽量な評価信号として利用するプロンプトを洗練するフレームワークである。
従来の方法とは異なり、最適化中に出力サンプリングや人的評価は必要とせず、フォワードパスとログライクな条件にのみ依存する。
実験の結果、PMPOはモデルのサイズやタスクにまたがる先行メソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-05-22T06:59:10Z) - SPAP: Structured Pruning via Alternating Optimization and Penalty Methods [2.1388885579612804]
大規模言語モデル(LLM)は、しばしば計算とメモリの要求によって制約される。
最適化理論に基づくLLMのための新規かつ効率的な構造化プルーニングフレームワークであるSPAP(Structured Pruning via Alternating Optimization and Penalty Methods)を提案する。
我々の研究は、モデル性能を保ちながらLLMを刈り取るための実用的で最適化駆動のソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-06T09:47:53Z) - PIP: Perturbation-based Iterative Pruning for Large Language Models [15.00536465178398]
PIP (Perturbation-based Iterative Pruning) は,大規模言語モデルを最適化する新しい二重ビュー構造化プルーニング手法である。
勾配差の計算により、PIPはこれらの2つの見解の区別に苦慮している人たちを反復的に引き起こす。
実験の結果,PIPは元のモデルの精度の85%以上を維持しつつ,パラメータ数を約20%削減できることがわかった。
論文 参考訳(メタデータ) (2025-01-25T17:10:50Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - SPDY: Accurate Pruning with Speedup Guarantees [29.284147465251685]
SPDYは、所望の推論スピードアップを達成するために、レイヤーワイドのスパシティターゲットを自動的に決定する新しい圧縮手法である。
また,SPDYは,ワンショットおよび段階的なプルーニングシナリオにおいて,既存の戦略と比較して高い精度を回復しつつ,スピードアップを保証していることを示す。
また、非常に少ないデータでプルーニングを行うという最近提案されたタスクにアプローチを拡張し、GPUをサポートする2:4のスパーシティパターンにプルーニングする際に最もよく知られた精度回復を実現する。
論文 参考訳(メタデータ) (2022-01-31T10:14:31Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。