論文の概要: Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study
- arxiv url: http://arxiv.org/abs/2307.08072v2
- Date: Wed, 26 Jul 2023 04:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 15:15:31.955603
- Title: Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study
- Title(参考訳): 量子化大規模言語モデルにおける創発的能力--実証的研究
- Authors: Peiyu Liu, Zikang Liu, Ze-Feng Gao, Dawei Gao, Wayne Xin Zhao, Yaliang
Li, Bolin Ding, Ji-Rong Wen
- Abstract要約: 本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
- 参考スコア(独自算出の注目度): 90.34226812493083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the superior performance, Large Language Models~(LLMs) require
significant computational resources for deployment and use. To overcome this
issue, quantization methods have been widely applied to reduce the memory
footprint of LLMs as well as increasing the inference rate. However, a major
challenge is that low-bit quantization methods often lead to performance
degradation. It is important to understand how quantization impacts the
capacity of LLMs. Different from previous studies focused on overall
performance, this work aims to investigate the impact of quantization on
\emph{emergent abilities}, which are important characteristics that distinguish
LLMs from small language models. Specially, we examine the abilities of
in-context learning, chain-of-thought reasoning, and instruction-following in
quantized LLMs. Our empirical experiments show that these emergent abilities
still exist in 4-bit quantization models, while 2-bit models encounter severe
performance degradation on the test of these abilities. To improve the
performance of low-bit models, we conduct two special experiments: (1)
fine-gained impact analysis that studies which components (or substructures)
are more sensitive to quantization, and (2) performance compensation through
model fine-tuning. Our work derives a series of important findings to
understand the impact of quantization on emergent abilities, and sheds lights
on the possibilities of extremely low-bit quantization for LLMs.
- Abstract(参考訳): 優れた性能にもかかわらず、Large Language Models~(LLM)は、デプロイと使用のためにかなりの計算資源を必要とする。
この問題を解決するために、LLMのメモリフットプリント削減や推論率の向上に量子化法が広く応用されている。
しかし、大きな課題は、低ビット量子化法がしばしば性能劣化を引き起こすことである。
量子化がLLMの容量に与える影響を理解することは重要である。
全体的な性能に着目した以前の研究と異なり、本研究は、小言語モデルとllmを区別する重要な特徴である \emph{emergent ability} に対する量子化の影響を調べることを目的としている。
特に,量子化llmにおける文脈内学習,連鎖的思考推論,命令追従の能力について検討する。
実験により,4ビット量子化モデルにおいて,これらの創発能力は依然として存在することが示された。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
我々の研究は、量子化が創発能力に与える影響を理解するための重要な発見を導き、LLMの極低ビット量子化の可能性に光を放つ。
関連論文リスト
- What Makes Quantization for Large Language Models Hard? An Empirical
Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。
本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。
各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文 参考訳(メタデータ) (2024-03-11T03:42:51Z) - A Comprehensive Evaluation of Quantization Strategies for Large Language
Models [44.14607761793267]
大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。
モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。
本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T17:45:36Z) - ApiQ: Finetuning of 2-Bit Quantized Large Language Model [7.621880623381026]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。
量子化の様々なビット幅にわたって優れた微調整結果が得られる。
論文 参考訳(メタデータ) (2024-02-07T09:36:54Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z) - PB-LLM: Partially Binarized Large Language Models [14.244537605866864]
本稿では,Large Language Models (LLMs) 圧縮のために,モデル重みを1ビットに圧縮するネットワークバイナライゼーションについて検討する。
本稿では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partial-Binarized LLM)を提案する。
論文 参考訳(メタデータ) (2023-09-29T14:35:27Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - ZeroQuant-V2: Exploring Post-training Quantization in LLMs from
Comprehensive Study to Low Rank Compensation [24.34969722921442]
学習後量子化(PTQ)は、大規模言語モデル(LLM)におけるメモリ消費と計算コストを緩和する有望な手法として登場した。
我々は、PTQが重量のみ、活性化のみ、および重量と活性化の量子化に与える影響を調査し、これらの要因を包括的に分析する。
モデルサイズが最小限に抑えられたモデル品質回復を実現するために,Loll-Rank Compensation (LoRC) という最適化手法を提案する。
論文 参考訳(メタデータ) (2023-03-15T01:27:15Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。