論文の概要: PB-LLM: Partially Binarized Large Language Models
- arxiv url: http://arxiv.org/abs/2310.00034v1
- Date: Fri, 29 Sep 2023 14:35:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 07:02:40.447797
- Title: PB-LLM: Partially Binarized Large Language Models
- Title(参考訳): pb-llm: 部分バイナリ化された大規模言語モデル
- Authors: Yuzhang Shang, Zhihang Yuan, Qiang Wu, Zhen Dong
- Abstract要約: 本稿では,Large Language Models (LLMs) 圧縮のために,モデル重みを1ビットに圧縮するネットワークバイナライゼーションについて検討する。
本稿では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partial-Binarized LLM)を提案する。
- 参考スコア(独自算出の注目度): 14.244537605866864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores network binarization, a radical form of quantization,
compressing model weights to a single bit, specifically for Large Language
Models (LLMs) compression. Due to previous binarization methods collapsing
LLMs, we propose a novel approach, Partially-Binarized LLM (PB-LLM), which can
achieve extreme low-bit quantization while maintaining the linguistic reasoning
capacity of quantized LLMs. Specifically, our exploration first uncovers the
ineffectiveness of naive applications of existing binarization algorithms and
highlights the imperative role of salient weights in achieving low-bit
quantization. Thus, PB-LLM filters a small ratio of salient weights during
binarization, allocating them to higher-bit storage, i.e.,
partially-binarization. PB-LLM is extended to recover the capacities of
quantized LMMs, by analyzing from the perspective of post-training quantization
(PTQ) and quantization-aware training (QAT). Under PTQ, combining the concepts
from GPTQ, we reconstruct the binarized weight matrix guided by the Hessian
matrix and successfully recover the reasoning capacity of PB-LLM in low-bit.
Under QAT, we freeze the salient weights during training, explore the
derivation of optimal scaling factors crucial for minimizing the quantization
error, and propose a scaling mechanism based on this derived scaling strategy
for residual binarized weights. Those explorations and the developed
methodologies significantly contribute to rejuvenating the performance of
low-bit quantized LLMs and present substantial advancements in the field of
network binarization for LLMs.The code is available at
https://github.com/hahnyuan/BinaryLLM.
- Abstract(参考訳): 本稿では、量子化の急進的な形式であるネットワークバイナライゼーションについて検討し、特にLLM(Large Language Models)圧縮のためのモデル重みを1ビットに圧縮する。
そこで本研究では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partially-Binarized LLM)を提案する。
特に,本研究は,既存の2値化アルゴリズムの非効率性を明らかにし,低ビット量子化を達成する上での有意な重みの意義を強調した。
したがって、PB-LLMはバイナライゼーション中に少量のサリエント重みをフィルターし、高ビットストレージ、すなわち部分二値化に割り当てる。
PB-LLMは、後トレーニング量子化(PTQ)と量子化対応トレーニング(QAT)の観点から分析することにより、量子化LMMの容量を回復するために拡張される。
PTQの下では、GPTQの概念を組み合わせることで、ヘッセン行列によって導かれる二項化重み行列を再構築し、低ビットでのPB-LLMの推論能力の回復に成功した。
qatでは,トレーニング中に塩分重みを凍結し,量子化誤差の最小化に必須な最適スケーリング因子の導出を探索し,残留二元化重みに対するこの派生スケーリング戦略に基づくスケーリング機構を提案する。
これらの探索と開発手法は,低ビット量子化LDMの性能回復に大きく貢献し,LLMのネットワークバイナライゼーション分野における大幅な進歩をもたらし,そのコードはhttps://github.com/hahnyuan/BinaryLLMで公開されている。
関連論文リスト
- Scaling laws for post-training quantized large language models [41.78467383320145]
良く訓練された大言語モデル(LLM)の一般化能力は、モデルサイズの関数として予測可能であることが知られている。
後処理後圧縮後のLCMの品質は予測不可能であり,ケースバイケースの検証が必要となることが多い。
論文 参考訳(メタデータ) (2024-10-15T23:34:22Z) - LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices [41.17378536966264]
低ランク量子化$-$は、大規模言語モデルのための単純だが効果的なポストトレーニング重み量子化法である。
低ランク構造によるパラメータ共有により、LRQは重みの個別のスケーリングを可能にしながら、パラメータを著しく少ない値で学習するのみである。
従来の LLM PTQ よりも, (i) 8$-bit ウェイトおよび (ii) 4$-bit ウェイトおよび (ii) 8$-bit アクティベーション量子化, (iii) 低ビット ウェイトのみの量子化スキームにおける LRQ の優位性を示す。
論文 参考訳(メタデータ) (2024-07-16T09:32:07Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。