論文の概要: LittleBit: Ultra Low-Bit Quantization via Latent Factorization
- arxiv url: http://arxiv.org/abs/2506.13771v1
- Date: Fri, 30 May 2025 06:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.643642
- Title: LittleBit: Ultra Low-Bit Quantization via Latent Factorization
- Title(参考訳): LittleBit: 潜在因子化による超低ビット量子化
- Authors: Banseok Lee, Dongkyu Kim, Youngcheon You, Youngmin Kim,
- Abstract要約: 大規模言語モデル(LLM)は、かなりのメモリと計算コストの課題に直面していることが多い。
本稿では,極端LLM圧縮の新しい手法であるLittleBitを紹介する。
例えば、Llama2-13B は 0.9 GB 以下になる。
- 参考スコア(独自算出の注目度): 7.1508066212157715
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deploying large language models (LLMs) often faces challenges from substantial memory and computational costs. Quantization offers a solution, yet performance degradation in the sub-1-bit regime remains particularly difficult. This paper introduces LittleBit, a novel method for extreme LLM compression. It targets levels like 0.1 bits per weight (BPW), achieving nearly 31$\times$ memory reduction, e.g., Llama2-13B to under 0.9 GB. LittleBit represents weights in a low-rank form using latent matrix factorization, subsequently binarizing these factors. To counteract information loss from this extreme precision, it integrates a multi-scale compensation mechanism. This includes row, column, and an additional latent dimension that learns per-rank importance. Two key contributions enable effective training: Dual Sign-Value-Independent Decomposition (Dual-SVID) for stable quantization-aware training (QAT) initialization, and integrated Residual Compensation to mitigate errors. Extensive experiments confirm LittleBit's superiority in sub-1-bit quantization: e.g., its 0.1 BPW performance on Llama2-7B surpasses the leading method's 0.7 BPW. This establishes a superior size-performance trade-off, with kernel-level benchmarks indicating potential for a 5$\times$ speedup compared to FP16. LittleBit paves the way for deploying powerful LLMs in resource-constrained environments.
- Abstract(参考訳): 大規模言語モデル(LLM)のデプロイは、かなりのメモリと計算コストの課題に直面することが多い。
量子化はソリューションを提供するが、sub-1ビット状態における性能劣化は特に困難である。
本稿では,極端LLM圧縮の新しい手法であるLittleBitを紹介する。
BPW(0.1bits per weight)のようなレベルをターゲットにしており、メモリの削減、例えばLlama2-13Bを0.9GB以下に約31$\times$で達成している。
LittleBitは潜在行列因子化を用いて低ランクな形で重みを表現し、その後これらの因子をバイナライズする。
この極端精度からの情報損失に対処するため、マルチスケールの補償機構を統合する。
これには、行、列、およびランクごとの重要度を学習する追加の潜伏次元が含まれる。
安定量子化対応トレーニング(QAT)初期化のためのDual Sign-Independent Decomposition(Dual-SVID)と、エラーを軽減するためのResidual Compensationの統合である。
例えば、Llama2-7B上の0.1BPW性能は、先行するメソッドの0.7BPWを上回っている。
これにより、カーネルレベルのベンチマークでは、FP16と比較して5$\times$のスピードアップの可能性を示している。
LittleBitはリソース制約のある環境で強力なLLMをデプロイする方法を舗装している。
関連論文リスト
- Squeeze10-LLM: Squeezing LLMs' Weights by 10 Times via a Staged Mixed-Precision Quantization Method [37.70474075872739]
我々は16ビット言語モデルの重み付けを10倍にするためにSqueeze10-LLMを提案する。
重量の80%を1ビットに、20%から4ビットに定量化することで、重量当たり平均1.6ビットを達成する。
LLaMAとLLaMA2の実験により、Squeeze10-LLMは2ビット以下の重みのみの量子化に対して最先端の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-07-24T03:55:19Z) - BTC-LLM: Efficient Sub-1-Bit LLM Quantization via Learnable Transformation and Binary Codebook [20.89001326838199]
本稿では,新しいサブ1ビット大規模言語モデル(LLM)の量子化フレームワークであるBTC-LLMを提案する。
提案手法は,(1)非可逆スケーリングと回転を最適化し,二項化重みを完全精度分布に整合させる学習可能な変換,(2)繰り返し発生するバイナリベクトルクラスタを識別するFlashおよび精度の高いバイナリコードブックである。
論文 参考訳(メタデータ) (2025-05-24T03:57:19Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMs [28.70239743254508]
LLM圧縮のための最初の構造双対化法を1ビット未満の精度で提案する。
バイナライズされたLLMの重みは、性能劣化を伴わずにランダムに反転することができる。
本手法は他の圧縮バイナライズ手法よりも優れた性能を示しながら,メモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2024-08-03T15:07:44Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。