論文の概要: ARB-LLM: Alternating Refined Binarizations for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.03129v1
- Date: Fri, 04 Oct 2024 03:50:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:12:34.042836
- Title: ARB-LLM: Alternating Refined Binarizations for Large Language Models
- Title(参考訳): ARB-LLM:大規模言語モデルのための置換精製バイナリ化
- Authors: Zhiteng Li, Xianglong Yan, Tianao Zhang, Haotong Qin, Dong Xie, Jiang Tian, zhongchao shi, Linghe Kong, Yulun Zhang, Xiaokang Yang,
- Abstract要約: ARB-LLMは、大規模言語モデル(LLM)に適した新しい1ビット後トレーニング量子化(PTQ)技術である。
ARB-LLM$_textRC$は同じサイズのFP16モデルを超えるのは初めてです。
- 参考スコア(独自算出の注目度): 82.24826360906341
- License:
- Abstract: Large Language Models (LLMs) have greatly pushed forward advancements in natural language processing, yet their high memory and computational demands hinder practical deployment. Binarization, as an effective compression technique, can shrink model weights to just 1 bit, significantly reducing the high demands on computation and memory. However, current binarization methods struggle to narrow the distribution gap between binarized and full-precision weights, while also overlooking the column deviation in LLM weight distribution. To tackle these issues, we propose ARB-LLM, a novel 1-bit post-training quantization (PTQ) technique tailored for LLMs. To narrow the distribution shift between binarized and full-precision weights, we first design an alternating refined binarization (ARB) algorithm to progressively update the binarization parameters, which significantly reduces the quantization error. Moreover, considering the pivot role of calibration data and the column deviation in LLM weights, we further extend ARB to ARB-X and ARB-RC. In addition, we refine the weight partition strategy with column-group bitmap (CGB), which further enhance performance. Equipping ARB-X and ARB-RC with CGB, we obtain ARB-LLM$_\text{X}$ and ARB-LLM$_\text{RC}$ respectively, which significantly outperform state-of-the-art (SOTA) binarization methods for LLMs. As a binary PTQ method, our ARB-LLM$_\text{RC}$ is the first to surpass FP16 models of the same size. The code and models will be available at https://github.com/ZHITENGLI/ARB-LLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理の進歩を大いに推進してきたが、その高いメモリと計算要求は、実用的な展開を妨げている。
効果的な圧縮手法であるバイナリ化は、モデルの重みを1ビットに縮めることができ、計算とメモリに対する高い要求を著しく低減することができる。
しかし、現在の二項化法は、LLM重量分布における柱偏差を見越しながら、二項化と全精度化の間の分布ギャップを狭めるのに苦労している。
これらの問題に対処するために,LLMに適した新しい1ビットポストトレーニング量子化(PTQ)技術であるABB-LLMを提案する。
まず、二項化と全精度化の間の分布シフトを狭めるために、二項化パラメータを段階的に更新する修正二項化(ARB)アルゴリズムを設計し、量子化誤差を著しく低減する。
さらに, キャリブレーションデータとLLM重みのカラム偏差を考慮し, さらにABBをABB-X, ARB-RCに拡張する。
さらに,カラム群ビットマップ(CGB)を用いて重み分割戦略を改良し,性能をさらに向上する。
ARB-LLM$_\text{X}$ と ARB-LLM$_\text{RC}$ をそれぞれ取得し、LLMの最先端二値化法(SOTA)を著しく上回っている。
ARB-LLM$_\text{RC}$は同じサイズのFP16モデルを超えるのは初めてである。
コードとモデルはhttps://github.com/ZHITENGLI/ARB-LLM.comで入手できる。
関連論文リスト
- From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Optimization-based Structural Pruning for Large Language Models without Back-Propagation [57.9629676017527]
本稿では,Large-Language Models (LLMs) を用いた最適化に基づく構造解析手法を提案する。
本手法は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
提案手法は,A100 GPUの13Bモデルに対して,約35GBのメモリで2.7時間動作する。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。
本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。
LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文 参考訳(メタデータ) (2024-05-27T14:49:39Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Distributed bundle adjustment with block-based sparse matrix compression
for super large scale datasets [0.0]
超大規模データセットに対する厳密なLevenberg-Marquardt(LM)アルゴリズムを用いた分散バンドル調整(DBA)手法を提案する。
はじめに、118万画像と1000万画像の合成データセットを持つ実データセットに対して、LMアルゴリズムを用いた並列バンドル調整を行った。
論文 参考訳(メタデータ) (2023-07-17T10:43:54Z) - Exact Backpropagation in Binary Weighted Networks with Group Weight
Transformations [0.0]
量子化に基づくモデル圧縮は、推論のためのハイパフォーマンスで高速なアプローチとして機能する。
重みをバイナリ値に制限するモデルは、ユビキタスドット製品の効率的な実装を可能にします。
論文 参考訳(メタデータ) (2021-07-03T10:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。