論文の概要: BTC-LLM: Efficient Sub-1-Bit LLM Quantization via Learnable Transformation and Binary Codebook
- arxiv url: http://arxiv.org/abs/2506.12040v1
- Date: Sat, 24 May 2025 03:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.601496
- Title: BTC-LLM: Efficient Sub-1-Bit LLM Quantization via Learnable Transformation and Binary Codebook
- Title(参考訳): BTC-LLM:学習可能変換とバイナリコードブックによる効率的なサブ-1ビットLCM量子化
- Authors: Hao Gu, Lujun Li, Zheyu Wang, Bei Liu, Qiyuan Zhu, Sirui Han, Yike Guo,
- Abstract要約: 本稿では,新しいサブ1ビット大規模言語モデル(LLM)の量子化フレームワークであるBTC-LLMを提案する。
提案手法は,(1)非可逆スケーリングと回転を最適化し,二項化重みを完全精度分布に整合させる学習可能な変換,(2)繰り返し発生するバイナリベクトルクラスタを識別するFlashおよび精度の高いバイナリコードブックである。
- 参考スコア(独自算出の注目度): 20.89001326838199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binary quantization represents the most extreme form of large language model (LLM) compression, reducing weights to $\pm$1 for maximal memory and computational efficiency. While recent sparsity-aware binarization methods achieve sub-1-bit compression by pruning redundant binary weights, they suffer from three critical challenges: performance deterioration, computational complexity from sparse mask management, and limited hardware compatibility. In this paper, we present BTC-LLM, a novel sub-1-bit LLM quantization framework that leverages adaptive weight transformation and binary pattern clustering to overcome these limitations, delivering both superior accuracy and efficiency. Our approach incorporates two key innovations: (1) a Learnable Transformation that optimizes invertible scaling and rotation matrices to align binarized weights with full-precision distributions, enabling incoherence processing to enhance layer-wise representation quality; (2) a Flash and Accurate Binary Codebook that identifies recurring binary vector clusters, compressing them into compact indices with tailored distance metrics and sign-based centroid updates. This eliminates the need for sparse masks, enabling efficient inference on standard hardware. Our code is available at https://github.com/Chooovy/BTC-LLM.
- Abstract(参考訳): バイナリ量子化は、大きな言語モデル(LLM)圧縮の最も極端な形式であり、最大メモリと計算効率のために重量を$\pm$1に減らす。
最近のスパシティ対応バイナライゼーション手法は冗長なバイナリ重み付けによってサブ-1ビット圧縮を実現するが、性能劣化、スパースマスク管理による計算複雑性、ハードウェア互換性の制限という3つの重大な課題に悩まされている。
本稿では、適応重み変換とバイナリパターンクラスタリングを利用してこれらの制限を克服し、より優れた精度と効率を実現する、新しいサブ-1ビットLLM量子化フレームワークであるBTC-LLMを提案する。
提案手法は,(1)非可逆スケーリングと回転行列を最適化し,二項化重みを完全精度分布に整合させ,非コヒーレンス処理による表現品質の向上を可能にする学習可能変換,(2)バイナリベクタクラスタの繰り返しを識別するFlashおよび精度の高いバイナリコードブック,そして,それらを調整された距離メトリックと符号ベースのセントロイド更新を備えたコンパクトなインデックスに圧縮する。
これによりスパースマスクが不要になり、標準ハードウェアでの効率的な推論が可能となる。
私たちのコードはhttps://github.com/Chooovy/BTC-LLM.comで公開されています。
関連論文リスト
- Addition is almost all you need: Compressing neural networks with double binary factorization [0.0]
二重二元因子化(DBF)は、密度重み行列を2つの二元行列の積に分解する新しい方法である。
DBFは2値表現の効率性を保ちつつ、最先端の手法と競合する圧縮率を達成する。
重量あたりの2ビットでは、DBFはQuIP#やQTIPのような最高の量子化手法と競合する。
論文 参考訳(メタデータ) (2025-05-16T10:07:36Z) - ARB-LLM: Alternating Refined Binarizations for Large Language Models [82.24826360906341]
ARB-LLMは、大規模言語モデル(LLM)に適した新しい1ビット後トレーニング量子化(PTQ)技術である。
ARB-LLM$_textRC$は同じサイズのFP16モデルを超えるのは初めてです。
論文 参考訳(メタデータ) (2024-10-04T03:50:10Z) - ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。
様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文 参考訳(メタデータ) (2024-08-16T06:39:08Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Exact Backpropagation in Binary Weighted Networks with Group Weight
Transformations [0.0]
量子化に基づくモデル圧縮は、推論のためのハイパフォーマンスで高速なアプローチとして機能する。
重みをバイナリ値に制限するモデルは、ユビキタスドット製品の効率的な実装を可能にします。
論文 参考訳(メタデータ) (2021-07-03T10:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。