論文の概要: A Comprehensive Evaluation of Quantization Strategies for Large Language
Models
- arxiv url: http://arxiv.org/abs/2402.16775v1
- Date: Mon, 26 Feb 2024 17:45:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:52:17.862612
- Title: A Comprehensive Evaluation of Quantization Strategies for Large Language
Models
- Title(参考訳): 大規模言語モデルのための量子化戦略の総合的評価
- Authors: Renren Jin, Jiangcun Du, Wuwei Huang, Wei Liu, Jian Luan, Bin Wang,
Deyi Xiong
- Abstract要約: 大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。
モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。
本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.14607761793267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasing the number of parameters in large language models (LLMs) usually
improves performance in downstream tasks but raises compute and memory costs,
making deployment difficult in resource-limited settings. Quantization
techniques, which reduce the bits needed for model weights or activations with
minimal performance loss, have become popular due to the rise of LLMs. However,
most quantization studies use pre-trained LLMs, and the impact of quantization
on instruction-tuned LLMs and the relationship between perplexity and benchmark
performance of quantized LLMs are not well understood. Evaluation of quantized
LLMs is often limited to language modeling and a few classification tasks,
leaving their performance on other benchmarks unclear. To address these gaps,
we propose a structured evaluation framework consisting of three critical
dimensions: (1) knowledge \& capacity, (2) alignment, and (3) efficiency, and
conduct extensive experiments across ten diverse benchmarks. Our experimental
results indicate that LLMs with 4-bit quantization can retain performance
comparable to their non-quantized counterparts, and perplexity can serve as a
proxy metric for quantized LLMs on most benchmarks. Furthermore, quantized LLMs
with larger parameter scales can outperform smaller LLMs. Despite the memory
savings achieved through quantization, it can also slow down the inference
speed of LLMs. Consequently, substantial engineering efforts and hardware
support are imperative to achieve a balanced optimization of decoding speed and
memory consumption in the context of quantized LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)におけるパラメータ数の増加は通常、ダウンストリームタスクのパフォーマンスが向上するが、計算コストとメモリコストが増大し、リソース制限された設定でのデプロイメントが困難になる。
モデル重みやアクティベーションに必要なビットを最小限の性能損失で削減する量子化技術は、LLMの台頭により人気を博している。
しかし、ほとんどの量子化研究は事前学習されたLLMを用いており、量子化が命令調整されたLLMに与える影響や、量子化LLMのパープレキシティとベンチマーク性能の関係はよく理解されていない。
量子化 LLM の評価は言語モデリングやいくつかの分類タスクに限られており、他のベンチマークでの性能は不明確である。
これらのギャップに対処するために,(1)知識とキャパシティ,(2)アライメント,(3)効率という3つの重要な次元からなる構造化評価フレームワークを提案する。
実験結果から, 4ビット量子化 LLM は, 量子化されていない LLM に匹敵する性能を保ち得ることが示唆された。
さらに、パラメータスケールが大きい量子化LLMは、より小さなLLMよりも優れる。
量子化によってメモリが節約されるにもかかわらず、llmの推論速度も遅くなる。
したがって、量子化LDMの文脈において、デコード速度とメモリ消費のバランスの取れた最適化を実現するためには、かなりのエンジニアリング努力とハードウェアサポートが必要である。
関連論文リスト
- What Makes Quantization for Large Language Models Hard? An Empirical
Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。
本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。
各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文 参考訳(メタデータ) (2024-03-11T03:42:51Z) - EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs [10.385919320080017]
大規模言語モデルのためのトレーニング不要かつデータ非依存な重みのみ量子化アルゴリズムであるEasyQuantを提案する。
EasyQuantはオリジナルのモデルに匹敵するパフォーマンスを実現している。
我々のアルゴリズムはデータ依存手法の10倍以上の速度で動作します。
論文 参考訳(メタデータ) (2024-03-05T08:45:30Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs [3.70147007069824]
大規模言語モデル(LLM)の任意の精度量子化のための軽量な手法を提案する。
我々のソリューションは、複数の異なるサイズのLCMをデプロイする際のコストを大幅に削減します。
ビット幅の異なる全てのLLMは、最先端のモデル品質と推論スループットを示している。
論文 参考訳(メタデータ) (2024-02-16T09:06:06Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。