論文の概要: You Only Prune Once: Designing Calibration-Free Model Compression With Policy Learning
- arxiv url: http://arxiv.org/abs/2501.15296v2
- Date: Wed, 19 Feb 2025 06:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:56:32.706441
- Title: You Only Prune Once: Designing Calibration-Free Model Compression With Policy Learning
- Title(参考訳): キャリブレーションなしのモデル圧縮をポリシー学習で設計する
- Authors: Ayan Sengupta, Siddhant Chaudhary, Tanmoy Chakraborty,
- Abstract要約: PruneNetは、ポリシー学習プロセスとしてモデルプルーニングを再構成する新しいモデル圧縮手法である。
LLaMA-2-7Bモデルはわずか15分で圧縮でき、ゼロショット性能の80%以上を維持できる。
複雑なマルチタスク言語理解タスクでは、PruneNetはオリジナルのモデルの80%のパフォーマンスを維持することで、その堅牢性を実証している。
- 参考スコア(独自算出の注目度): 20.62274005080048
- License:
- Abstract: The ever-increasing size of large language models (LLMs) presents significant challenges for deployment due to their heavy computational and memory requirements. Current model pruning techniques attempt to alleviate these issues by relying heavily on external calibration datasets to determine which parameters to prune or compress, thus limiting their flexibility and scalability across different compression ratios. Moreover, these methods often cause severe performance degradation, particularly in downstream tasks, when subjected to higher compression rates. In this paper, we propose PruneNet, a novel model compression method that addresses these limitations by reformulating model pruning as a policy learning process. PruneNet decouples the pruning process from the model architecture, eliminating the need for calibration datasets. It learns a stochastic pruning policy to assess parameter importance solely based on intrinsic model properties while preserving the spectral structure to minimize information loss. PruneNet can compress the LLaMA-2-7B model in just 15 minutes, achieving over 80% retention of its zero-shot performance with a 30% compression ratio, outperforming existing methods that retain only 75% performance. Furthermore, on complex multitask language understanding tasks, PruneNet demonstrates its robustness by preserving up to 80% performance of the original model, proving itself a superior alternative to conventional structured compression techniques.
- Abstract(参考訳): 大規模言語モデル (LLMs) の継続的なサイズ拡大は、計算とメモリの重い要求のため、デプロイメントに重大な課題をもたらす。
現在のモデルプルーニング手法は、外部キャリブレーションデータセットに大きく依存して、どのパラメータをプーンするか、圧縮するかを判断することでこれらの問題を緩和し、異なる圧縮比で柔軟性とスケーラビリティを制限する。
さらに、これらの手法は、特に下流タスクにおいて、より高い圧縮速度で、深刻な性能劣化を引き起こすことが多い。
本稿では,モデルプルーニングをポリシー学習プロセスとして再構成することで,これらの制約に対処する新しいモデル圧縮手法PruneNetを提案する。
PruneNetはプルーニングプロセスをモデルアーキテクチャから切り離し、キャリブレーションデータセットを不要にする。
情報損失を最小限に抑えるためにスペクトル構造を保ちながら、本質的なモデル特性のみに基づいてパラメータの重要度を評価する確率的プルーニングポリシーを学習する。
PruneNetはLLaMA-2-7Bモデルをわずか15分で圧縮でき、圧縮率30%でゼロショット性能の80%以上を維持でき、75%のパフォーマンスしか保持していない既存の手法よりも優れている。
さらに、複雑なマルチタスク言語理解タスクにおいて、PruneNetは、オリジナルのモデルの80%パフォーマンスを保ち、従来の構造化圧縮技術よりも優れていることを証明して、その堅牢性を実証している。
関連論文リスト
- Self-Data Distillation for Recovering Quality in Pruned Large Language Models [1.5665059604715017]
ワンショットプルーニングは、特に多段階推論を必要とするタスクにおいて、大幅な品質劣化をもたらす。
品質の低下を回復するために、教師付き微調整(SFT)が一般的に用いられるが、これは破滅的な忘れを招きかねない。
本研究では,これらの課題に対処するために,自己データ蒸留ファインチューニングを利用する。
論文 参考訳(メタデータ) (2024-10-13T19:53:40Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Edge AI: Evaluation of Model Compression Techniques for Convolutional Neural Networks [0.0]
本研究は,CIFAR-10データセットを用いた画像分類タスクにおけるConvNeXtモデルの圧縮手法を評価する。
その結果, モデルサイズが有意に減少し, 構造化プルーニング技術により最大75%の削減が達成された。
動的量子化はパラメータ数の最大95%の削減を達成する。
論文 参考訳(メタデータ) (2024-09-02T11:48:19Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Train Flat, Then Compress: Sharpness-Aware Minimization Learns More
Compressible Models [7.6356407698088]
不要なパラメータを抽出することは、大きなモデルを圧縮するための単純で効果的な方法として現れている。
平らな最小値の最適化は、標準Adamの最適化よりもパラメータの圧縮性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:54:37Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Neural Network Compression Via Sparse Optimization [23.184290795230897]
スパース最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。
我々は、CIFAR10のVGG16とImageNetのResNet50で、同じレベルの精度で、最大7.2倍と2.9倍のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-11-10T03:03:55Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。