論文の概要: ZipLM: Inference-Aware Structured Pruning of Language Models
- arxiv url: http://arxiv.org/abs/2302.04089v2
- Date: Thu, 26 Oct 2023 06:42:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 05:32:44.599114
- Title: ZipLM: Inference-Aware Structured Pruning of Language Models
- Title(参考訳): ZipLM: 言語モデルの推論を考慮した構造化プルーニング
- Authors: Eldar Kurtic, Elias Frantar, Dan Alistarh
- Abstract要約: ZipLMと呼ばれる大規模言語モデル(LLM)に対する新しい構造化圧縮手法を提案する。
ZipLMは、所望のランタイムスピードアップのセットをマッチングしながら、最先端の精度-vs-スピードアップを実現する。
ZipLMはすべての設定で最先端の圧縮モデルを生成する。
- 参考スコア(独自算出の注目度): 56.52030193434863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The breakthrough performance of large language models (LLMs) comes with major
computational footprints and high deployment costs. In this paper, we progress
towards resolving this problem by proposing a novel structured compression
approach for LLMs, called ZipLM. ZipLM achieves state-of-the-art
accuracy-vs-speedup, while matching a set of desired target runtime speedups in
any given inference environment. Specifically, given a model, a dataset, an
inference environment, as well as a set of speedup targets, ZipLM iteratively
identifies and removes components with the worst loss-runtime trade-off. Unlike
prior methods that specialize in either the post-training/one-shot or the
gradual compression setting, and only for specific families of models such as
BERT (encoder) or GPT (decoder), ZipLM produces state-of-the-art compressed
models across all these settings. Furthermore, ZipLM achieves superior results
for a fraction of the computational cost relative to prior distillation and
pruning techniques, making it a cost-effective approach for generating an
entire family of smaller, faster, and highly accurate models, guaranteed to
meet the desired inference specifications. In particular, ZipLM outperforms all
prior BERT-base distillation and pruning techniques, such as CoFi, MiniLM, and
TinyBERT. Moreover, it matches the performance of the heavily optimized
MobileBERT model, obtained via extensive architecture search, by simply pruning
the baseline BERT-large model. When compressing GPT2, ZipLM outperforms
DistilGPT2 while being 60% smaller and 30% faster. Our code is available at:
https://github.com/IST-DASLab/ZipLM.
- Abstract(参考訳): 大規模言語モデル(LLM)のブレークスルー性能には、大きな計算フットプリントと高いデプロイメントコストが伴う。
本稿では, ZipLM と呼ばれる LLM のための新しい構造化圧縮手法を提案することにより, この問題の解決に向けて前進する。
ziplmは任意の推論環境で所望のターゲットランタイムのスピードアップをマッチングしながら、最先端の精度とvsスピードアップを実現している。
具体的には、モデル、データセット、推論環境、および一連のスピードアップターゲットが与えられた場合、ZipLMは、最悪のロスランタイムトレードオフを伴うコンポーネントを反復的に識別し、削除する。
ポストトレーニング/ワンショットまたは段階圧縮設定を専門とする従来の方法とは異なり、BERT(エンコーダ)やGPT(デコーダ)のような特定のモデルのファミリーでのみ、ZipLMはこれらすべての設定で最先端の圧縮モデルを生成する。
さらに, ZipLM は, 従来の蒸留法とプルーニング法と比較して計算コストのごく一部で優れた結果が得られ, 所望の推論仕様を満たすように, より小型で高速で高精度なモデル群を生成するためのコスト効率の良いアプローチとなる。
特にZipLMは、CoFi、MiniLM、TinyBERTなど、以前のBERTベースの蒸留およびプルーニング技術よりも優れている。
さらに,高度に最適化されたMobileBERTモデルの性能は,ベースラインのBERT-largeモデルを単純に刈り取るだけで,アーキテクチャ探索によって得られる。
GPT2を圧縮する場合、ZipLMはDistilGPT2よりも60%小さく30%高速である。
私たちのコードは、https://github.com/IST-DASLab/ZipLM.comで利用可能です。
関連論文リスト
- Everything You Always Wanted to Know About Storage Compressibility of
Pre-Trained ML Models but Were Afraid to Ask [19.612260423937744]
既存のデータ削減技術は、事前訓練されたモデル(PTM)データセットファイルのために特別に設計されていない。
本稿では,ストレージ圧縮性に関するPTMデータセットの現在までの総括的解析について述べる。
我々は、他のいくつかのデータ削減手法とともにELFを統合する圧縮フレームワークであるElvesを開発した。
論文 参考訳(メタデータ) (2024-02-20T23:45:37Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [95.42228675690797]
我々は,比較的単純で広く疑問視される指標であるパープレキシティに依存する既存のSoTA圧縮手法の有効性を再評価する。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z) - ROSITA: Refined BERT cOmpreSsion with InTegrAted techniques [10.983311133796745]
BERTファミリーの事前訓練された言語モデルは、幅広いNLPタスクで最先端のものを定義しています。
BERTベースのモデルの性能は、主に大量のパラメータによって駆動され、リソース制限されたシナリオへの適用を妨げる。
我々は,3種類の圧縮手法(重み付きプルーニング,低ランク分解,知識蒸留)を導入し,モデルアーキテクチャに関する様々な設計について検討する。
Refined BERT cOmpreSsion with InTegrAted Technique(ROSITA)と呼ばれる私たちの最高の圧縮モデルは、7.5倍小さいです。
論文 参考訳(メタデータ) (2021-03-21T11:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。