Fugu-MT 論文翻訳(概要): ZipLM: Inference-Aware Structured Pruning of Language Models

論文の概要: ZipLM: Inference-Aware Structured Pruning of Language Models

arxiv url: http://arxiv.org/abs/2302.04089v2
Date: Thu, 26 Oct 2023 06:42:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-28 05:32:44.599114
Title: ZipLM: Inference-Aware Structured Pruning of Language Models
Title（参考訳）: ZipLM: 言語モデルの推論を考慮した構造化プルーニング
Authors: Eldar Kurtic, Elias Frantar, Dan Alistarh
Abstract要約: ZipLMと呼ばれる大規模言語モデル(LLM)に対する新しい構造化圧縮手法を提案する。 ZipLMは、所望のランタイムスピードアップのセットをマッチングしながら、最先端の精度-vs-スピードアップを実現する。 ZipLMはすべての設定で最先端の圧縮モデルを生成する。
参考スコア（独自算出の注目度）: 56.52030193434863
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The breakthrough performance of large language models (LLMs) comes with major computational footprints and high deployment costs. In this paper, we progress towards resolving this problem by proposing a novel structured compression approach for LLMs, called ZipLM. ZipLM achieves state-of-the-art accuracy-vs-speedup, while matching a set of desired target runtime speedups in any given inference environment. Specifically, given a model, a dataset, an inference environment, as well as a set of speedup targets, ZipLM iteratively identifies and removes components with the worst loss-runtime trade-off. Unlike prior methods that specialize in either the post-training/one-shot or the gradual compression setting, and only for specific families of models such as BERT (encoder) or GPT (decoder), ZipLM produces state-of-the-art compressed models across all these settings. Furthermore, ZipLM achieves superior results for a fraction of the computational cost relative to prior distillation and pruning techniques, making it a cost-effective approach for generating an entire family of smaller, faster, and highly accurate models, guaranteed to meet the desired inference specifications. In particular, ZipLM outperforms all prior BERT-base distillation and pruning techniques, such as CoFi, MiniLM, and TinyBERT. Moreover, it matches the performance of the heavily optimized MobileBERT model, obtained via extensive architecture search, by simply pruning the baseline BERT-large model. When compressing GPT2, ZipLM outperforms DistilGPT2 while being 60% smaller and 30% faster. Our code is available at: https://github.com/IST-DASLab/ZipLM.
Abstract（参考訳）: 大規模言語モデル(LLM)のブレークスルー性能には、大きな計算フットプリントと高いデプロイメントコストが伴う。本稿では, ZipLM と呼ばれる LLM のための新しい構造化圧縮手法を提案することにより, この問題の解決に向けて前進する。 ziplmは任意の推論環境で所望のターゲットランタイムのスピードアップをマッチングしながら、最先端の精度とvsスピードアップを実現している。具体的には、モデル、データセット、推論環境、および一連のスピードアップターゲットが与えられた場合、ZipLMは、最悪のロスランタイムトレードオフを伴うコンポーネントを反復的に識別し、削除する。ポストトレーニング/ワンショットまたは段階圧縮設定を専門とする従来の方法とは異なり、BERT(エンコーダ)やGPT(デコーダ)のような特定のモデルのファミリーでのみ、ZipLMはこれらすべての設定で最先端の圧縮モデルを生成する。さらに, ZipLM は, 従来の蒸留法とプルーニング法と比較して計算コストのごく一部で優れた結果が得られ, 所望の推論仕様を満たすように, より小型で高速で高精度なモデル群を生成するためのコスト効率の良いアプローチとなる。特にZipLMは、CoFi、MiniLM、TinyBERTなど、以前のBERTベースの蒸留およびプルーニング技術よりも優れている。さらに,高度に最適化されたMobileBERTモデルの性能は,ベースラインのBERT-largeモデルを単純に刈り取るだけで,アーキテクチャ探索によって得られる。 GPT2を圧縮する場合、ZipLMはDistilGPT2よりも60%小さく30%高速である。私たちのコードは、https://github.com/IST-DASLab/ZipLM.comで利用可能です。

関連論文リスト

Progressive Binarization with Semi-Structured Pruning for LLMs [36.32239429974179]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めた。彼らの高い計算量とメモリ要求は、リソース制約のあるデバイスへのデプロイに困難をもたらす。 LLM圧縮のための半構造化プルーニング(PBS$2$P)法によるプログレッシブバイナリ化を提案する。
論文参考訳（メタデータ） (2025-02-03T13:30:29Z)
LLMCBench: Benchmarking Large Language Model Compression for Efficient Deployment [36.958867918858296]
大規模言語モデル (LLM) は、その強力な知能を実証しているが、計算とストレージの需要が高いため、実用化は困難である。本稿ではLLMCBench(Large Language Model Compression Benchmark)を提案する。
論文参考訳（メタデータ） (2024-10-28T14:45:01Z)
Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文参考訳（メタデータ） (2024-10-25T06:08:59Z)
Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-21T01:23:34Z)
EvoPress: Towards Optimal Dynamic Model Compression via Evolutionary Search [33.86918407429272]
本稿では, 与えられた入力範囲において, 確実に最適である動的圧縮に対する新しい, 汎用的なアプローチを提案する。これらの理論的保証は、Llama, Mistral, Phiモデルの動的圧縮に高い競争力を与えることを示す。
論文参考訳（メタデータ） (2024-10-18T17:46:37Z)
SpaLLM: Unified Compressive Adaptation of Large Language Models with Sketching [32.4599581528901]
Two-towerアーキテクチャは、事前学習したLLMパラメータをコンパクトな表現に圧縮し、付加的な完全精度アダプタを微調整するために用いられる。 Sketched Adapting of LLMs (Sketched Adapting of LLMs) を提案する。 SpaLLMは事前訓練したLLM重量をルックアップテーブルにスケッチし、これらのテーブルの値を直接微調整する。
論文参考訳（メタデータ） (2024-10-08T20:58:24Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging [14.123313596780726]
我々は,MKA(Manifold-based Knowledge Alignment and Layer Merging Compression)を提案する。 MKAは、多様体学習と正規化ペアワイズ・インフォメーション・ボトルネック測定を使用して、類似したレイヤをマージし、本質的な性能を維持しながらモデルサイズを削減している。以上の結果から,MKAはモデル性能を保ちつつ,圧縮率も大幅に向上し,従来のプルーニング法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T05:57:55Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-17T20:45:13Z)
You Only Compress Once: Towards Effective and Elastic BERT Compression via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文参考訳（メタデータ） (2021-06-04T12:17:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。