論文の概要: ZipLM: Hardware-Aware Structured Pruning of Language Models
- arxiv url: http://arxiv.org/abs/2302.04089v1
- Date: Tue, 7 Feb 2023 18:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:12:33.678270
- Title: ZipLM: Hardware-Aware Structured Pruning of Language Models
- Title(参考訳): ZipLM: 言語モデルのハードウェア対応構造化プルーニング
- Authors: Eldar Kurtic, Elias Frantar, Dan Alistarh
- Abstract要約: ZipLMは大規模言語モデルのための新しい構造化圧縮手法である。
最先端の圧縮-vs-精度結果を提供する。
任意のターゲットハードウェア上で(達成可能な)ターゲットスピードアップのセットにマッチすることを保証します。
- 参考スコア(独自算出の注目度): 24.788346353818742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The breakthrough performance of large language models (LLMs) comes with large
computational footprints and high deployment costs. In this paper, we progress
towards resolving this problem by proposing a new structured compression
approach for LLMs, called ZipLM, which provides state-of-the-art
compression-vs-accuracy results, while guaranteeing to match a set of
(achievable) target speedups on any given target hardware. Specifically, given
a task, a model, an inference environment, as well as a set of speedup targets,
ZipLM identifies and removes redundancies in the model through iterative
structured shrinking of the model's weight matrices. Importantly, ZipLM works
in both, the post-training/one-shot and the gradual compression setting, where
it produces a set of accurate models in a single run, making it
highly-efficient in practice. Our approach is based on new structured pruning
and knowledge distillation techniques, and consistently outperforms prior
structured compression methods in terms of accuracy-versus-speedup in
experiments on BERT- and GPT-family models. In particular, when compressing
GPT2 model, it outperforms DistilGPT2 while being 60% smaller and 30% faster.
Further, ZipLM matches performance of heavily optimized MobileBERT model,
obtained via extensive architecture search, by simply pruning the baseline
BERT-large architecture, and outperforms all prior BERT-base compression
techniques like CoFi, MiniLM and TinyBERT.
- Abstract(参考訳): 大規模言語モデル(LLM)のブレークスルー性能には、大きな計算フットプリントと高いデプロイメントコストが伴う。
本稿では, ある対象ハードウェア上で(達成可能な)目標速度のセットに一致することを保証しつつ, 最先端の圧縮-vs-精度結果を提供するZipLMという, LLMの新たな構造化圧縮手法を提案することで,この問題を解決する。
具体的には、タスク、モデル、推論環境、およびスピードアップターゲットのセットが与えられた場合、ZipLMはモデルの重み行列の反復的構造的縮小を通じてモデルの冗長性を識別し、除去する。
重要なことに、ziplmはトレーニング後/ワンショットと段階的な圧縮設定の両方で動作し、単一の実行で正確なモデルセットを生成し、実際に高い効率を実現します。
提案手法は,新規な構造化プルーニング法と知識蒸留法に基づいており,BERTモデルとGPTモデルを用いた実験において,精度逆高速化の観点から先行構造化圧縮法を一貫して上回っている。
特に、GPT2モデルを圧縮する場合は、 DistilGPT2よりも60%小さく30%高速である。
さらに、ZipLMは、高度に最適化されたMobileBERTモデルの性能と一致し、ベースラインのBERT-largeアーキテクチャを刈り取るだけで、CoFi、MiniLM、TinyBERTといった従来のBERTベース圧縮技術よりも優れている。
関連論文リスト
- LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment [36.958867918858296]
大規模言語モデル (LLM) は、その強力な知能を実証しているが、計算とストレージの需要が高いため、実用化は困難である。
本稿ではLLMCBench(Large Language Model Compression Benchmark)を提案する。
論文 参考訳(メタデータ) (2024-10-28T14:45:01Z) - Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。
本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:08:59Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search [33.86918407429272]
本稿では, 与えられた入力範囲において, 確実に最適である動的圧縮に対する新しい, 汎用的なアプローチを提案する。
これらの理論的保証は、Llama, Mistral, Phiモデルの動的圧縮に高い競争力を与えることを示す。
論文 参考訳(メタデータ) (2024-10-18T17:46:37Z) - SpaLLM: Unified Compressive Adaptation of Large Language Models with Sketching [32.4599581528901]
Two-towerアーキテクチャは、事前学習したLLMパラメータをコンパクトな表現に圧縮し、付加的な完全精度アダプタを微調整するために用いられる。
Sketched Adapting of LLMs (Sketched Adapting of LLMs) を提案する。
SpaLLMは事前訓練したLLM重量をルックアップテーブルにスケッチし、これらのテーブルの値を直接微調整する。
論文 参考訳(メタデータ) (2024-10-08T20:58:24Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging [14.123313596780726]
我々は,MKA(Manifold-based Knowledge Alignment and Layer Merging Compression)を提案する。
MKAは、多様体学習と正規化ペアワイズ・インフォメーション・ボトルネック測定を使用して、類似したレイヤをマージし、本質的な性能を維持しながらモデルサイズを削減している。
以上の結果から,MKAはモデル性能を保ちつつ,圧縮率も大幅に向上し,従来のプルーニング法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T05:57:55Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。