論文の概要: LittleBit: Ultra Low-Bit Quantization via Latent Factorization
- arxiv url: http://arxiv.org/abs/2506.13771v1
- Date: Fri, 30 May 2025 06:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.643642
- Title: LittleBit: Ultra Low-Bit Quantization via Latent Factorization
- Title(参考訳): LittleBit: 潜在因子化による超低ビット量子化
- Authors: Banseok Lee, Dongkyu Kim, Youngcheon You, Youngmin Kim,
- Abstract要約: 大規模言語モデル(LLM)は、かなりのメモリと計算コストの課題に直面していることが多い。
本稿では,極端LLM圧縮の新しい手法であるLittleBitを紹介する。
例えば、Llama2-13B は 0.9 GB 以下になる。
- 参考スコア(独自算出の注目度): 7.1508066212157715
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deploying large language models (LLMs) often faces challenges from substantial memory and computational costs. Quantization offers a solution, yet performance degradation in the sub-1-bit regime remains particularly difficult. This paper introduces LittleBit, a novel method for extreme LLM compression. It targets levels like 0.1 bits per weight (BPW), achieving nearly 31$\times$ memory reduction, e.g., Llama2-13B to under 0.9 GB. LittleBit represents weights in a low-rank form using latent matrix factorization, subsequently binarizing these factors. To counteract information loss from this extreme precision, it integrates a multi-scale compensation mechanism. This includes row, column, and an additional latent dimension that learns per-rank importance. Two key contributions enable effective training: Dual Sign-Value-Independent Decomposition (Dual-SVID) for stable quantization-aware training (QAT) initialization, and integrated Residual Compensation to mitigate errors. Extensive experiments confirm LittleBit's superiority in sub-1-bit quantization: e.g., its 0.1 BPW performance on Llama2-7B surpasses the leading method's 0.7 BPW. This establishes a superior size-performance trade-off, with kernel-level benchmarks indicating potential for a 5$\times$ speedup compared to FP16. LittleBit paves the way for deploying powerful LLMs in resource-constrained environments.
- Abstract(参考訳): 大規模言語モデル(LLM)のデプロイは、かなりのメモリと計算コストの課題に直面することが多い。
量子化はソリューションを提供するが、sub-1ビット状態における性能劣化は特に困難である。
本稿では,極端LLM圧縮の新しい手法であるLittleBitを紹介する。
BPW(0.1bits per weight)のようなレベルをターゲットにしており、メモリの削減、例えばLlama2-13Bを0.9GB以下に約31$\times$で達成している。
LittleBitは潜在行列因子化を用いて低ランクな形で重みを表現し、その後これらの因子をバイナライズする。
この極端精度からの情報損失に対処するため、マルチスケールの補償機構を統合する。
これには、行、列、およびランクごとの重要度を学習する追加の潜伏次元が含まれる。
安定量子化対応トレーニング(QAT)初期化のためのDual Sign-Independent Decomposition(Dual-SVID)と、エラーを軽減するためのResidual Compensationの統合である。
例えば、Llama2-7B上の0.1BPW性能は、先行するメソッドの0.7BPWを上回っている。
これにより、カーネルレベルのベンチマークでは、FP16と比較して5$\times$のスピードアップの可能性を示している。
LittleBitはリソース制約のある環境で強力なLLMをデプロイする方法を舗装している。
関連論文リスト
- OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。