論文の概要: ZipLM: Hardware-Aware Structured Pruning of Language Models
- arxiv url: http://arxiv.org/abs/2302.04089v1
- Date: Tue, 7 Feb 2023 18:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:12:33.678270
- Title: ZipLM: Hardware-Aware Structured Pruning of Language Models
- Title(参考訳): ZipLM: 言語モデルのハードウェア対応構造化プルーニング
- Authors: Eldar Kurtic, Elias Frantar, Dan Alistarh
- Abstract要約: ZipLMは大規模言語モデルのための新しい構造化圧縮手法である。
最先端の圧縮-vs-精度結果を提供する。
任意のターゲットハードウェア上で(達成可能な)ターゲットスピードアップのセットにマッチすることを保証します。
- 参考スコア(独自算出の注目度): 24.788346353818742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The breakthrough performance of large language models (LLMs) comes with large
computational footprints and high deployment costs. In this paper, we progress
towards resolving this problem by proposing a new structured compression
approach for LLMs, called ZipLM, which provides state-of-the-art
compression-vs-accuracy results, while guaranteeing to match a set of
(achievable) target speedups on any given target hardware. Specifically, given
a task, a model, an inference environment, as well as a set of speedup targets,
ZipLM identifies and removes redundancies in the model through iterative
structured shrinking of the model's weight matrices. Importantly, ZipLM works
in both, the post-training/one-shot and the gradual compression setting, where
it produces a set of accurate models in a single run, making it
highly-efficient in practice. Our approach is based on new structured pruning
and knowledge distillation techniques, and consistently outperforms prior
structured compression methods in terms of accuracy-versus-speedup in
experiments on BERT- and GPT-family models. In particular, when compressing
GPT2 model, it outperforms DistilGPT2 while being 60% smaller and 30% faster.
Further, ZipLM matches performance of heavily optimized MobileBERT model,
obtained via extensive architecture search, by simply pruning the baseline
BERT-large architecture, and outperforms all prior BERT-base compression
techniques like CoFi, MiniLM and TinyBERT.
- Abstract(参考訳): 大規模言語モデル(LLM)のブレークスルー性能には、大きな計算フットプリントと高いデプロイメントコストが伴う。
本稿では, ある対象ハードウェア上で(達成可能な)目標速度のセットに一致することを保証しつつ, 最先端の圧縮-vs-精度結果を提供するZipLMという, LLMの新たな構造化圧縮手法を提案することで,この問題を解決する。
具体的には、タスク、モデル、推論環境、およびスピードアップターゲットのセットが与えられた場合、ZipLMはモデルの重み行列の反復的構造的縮小を通じてモデルの冗長性を識別し、除去する。
重要なことに、ziplmはトレーニング後/ワンショットと段階的な圧縮設定の両方で動作し、単一の実行で正確なモデルセットを生成し、実際に高い効率を実現します。
提案手法は,新規な構造化プルーニング法と知識蒸留法に基づいており,BERTモデルとGPTモデルを用いた実験において,精度逆高速化の観点から先行構造化圧縮法を一貫して上回っている。
特に、GPT2モデルを圧縮する場合は、 DistilGPT2よりも60%小さく30%高速である。
さらに、ZipLMは、高度に最適化されたMobileBERTモデルの性能と一致し、ベースラインのBERT-largeアーキテクチャを刈り取るだけで、CoFi、MiniLM、TinyBERTといった従来のBERTベース圧縮技術よりも優れている。
関連論文リスト
- Everything You Always Wanted to Know About Storage Compressibility of
Pre-Trained ML Models but Were Afraid to Ask [19.612260423937744]
既存のデータ削減技術は、事前訓練されたモデル(PTM)データセットファイルのために特別に設計されていない。
本稿では,ストレージ圧縮性に関するPTMデータセットの現在までの総括的解析について述べる。
我々は、他のいくつかのデータ削減手法とともにELFを統合する圧縮フレームワークであるElvesを開発した。
論文 参考訳(メタデータ) (2024-02-20T23:45:37Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [95.42228675690797]
我々は,比較的単純で広く疑問視される指標であるパープレキシティに依存する既存のSoTA圧縮手法の有効性を再評価する。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z) - ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques [10.983311133796745]
BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端のものを定義しています。
BERTベースのモデルの性能は、主に大量のパラメータによって駆動され、リソース制限されたシナリオへの適用を妨げる。
我々は,3種類の圧縮手法(重み付きプルーニング,低ランク分解,知識蒸留)を導入し,モデルアーキテクチャに関する様々な設計について検討する。
Refined BERT cOmpreSsion with InTegrAted Technique(ROSITA)と呼ばれる私たちの最高の圧縮モデルは、7.5倍小さいです。
論文 参考訳(メタデータ) (2021-03-21T11:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。