論文の概要: CCQ: Convolutional Code for Extreme Low-bit Quantization in LLMs
- arxiv url: http://arxiv.org/abs/2507.07145v1
- Date: Wed, 09 Jul 2025 06:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.14359
- Title: CCQ: Convolutional Code for Extreme Low-bit Quantization in LLMs
- Title(参考訳): CCQ:LLMにおける極低ビット量子化のための畳み込み符号
- Authors: Zhaojing Zhou, Xunchao Li, Minghao Li, Handi Zhang, Haoshuang Wang, Wenbin Chang, Yiqun Liu, Qingqing Dang, Dianhai Yu, Yanjun Ma, Haifeng Wang,
- Abstract要約: 畳み込み符号量子化(英: Convolutional Code Quantization、CCQ)は、大言語モデルを2.0-2.75ビットに圧縮する推論最適化量子化手法である。
コードブックと重みの線形マッピングが可能なルックアップフリーな符号化空間を構築する。
CCQ は様々なベンチマークにおいて LLM 上で優れた性能を発揮することを示す実験である。
- 参考スコア(独自算出の注目度): 25.32003624625106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid scaling of Large Language Models (LLMs) elevates inference costs and compounds substantial deployment barriers. While quantization to 8 or 4 bits mitigates this, sub-3-bit methods face severe accuracy, scalability, and efficiency degradation. We propose Convolutional Code Quantization (CCQ), an inference-optimized quantization approach compressing LLMs to 2.0-2.75 bits with minimal accuracy loss. Departing from error-prone scalar quantization or slow vector quantization, CCQ integrates a hardware-aware bit-shift encoding and decoding solution with Convolutional Code, Hybrid Encoding, and Code Cluster, jointly overcoming accuracy-speed bottlenecks. We construct a lookup-free encoding space, enabling a linear mapping between the codebook and weight vectors, thereby optimizing inference performance. Meanwhile, by drawing on the concept of data mapping from vector quantization, we minimize the performance degradation of the model under extremely low-bit conditions. Experiments demonstrate that CCQ achieves outstanding performance on LLMs across various benchmarks. We compress DeepSeek-V3 (671B total parameters) to 184GB and ERNIE-4.5-300B-A47B to 89GB, enabling single-GPU deployment of ERNIE 4.5 and eliminating inter-card communication. The 2-bit ERNIE-4.5-300B-A47B model and inference engine have been open-sourced.
- Abstract(参考訳): LLM(Large Language Models)の急速なスケーリングは、推論コストと相当なデプロイメント障壁を増大させる。
8ビットから4ビットへの量子化がこれを緩和する一方、サブ3ビット法は精度、スケーラビリティ、効率の低下に直面している。
我々は,LLMを2.0-2.75ビットに圧縮する推論最適化量子化手法である畳み込み符号量子化(CCQ)を提案する。
エラーを起こしやすいスカラー量子化や遅いベクトル量子化とは別に、CCQはハードウェア対応のビットシフト符号化とデコードソリューションをConvolutional Code、Hybrid Encoding、Code Clusterと統合し、精度と速度のボトルネックを克服する。
我々は、コードブックと重みベクトルの線形マッピングを可能にするルックアップフリーな符号化空間を構築し、推論性能を最適化する。
一方,ベクトル量子化によるデータマッピングの概念に基づき,極低ビット条件下でのモデルの性能劣化を最小限に抑える。
CCQ は様々なベンチマークにおいて LLM 上で優れた性能を発揮することを示す実験である。
We compress DeepSeek-V3 (671B total parameters) to 184GB and ERNIE-4.5-300B-A47B to 89GB。
2ビットのERNIE-4.5-300B-A47Bモデルと推論エンジンがオープンソース化された。
関連論文リスト
- CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - Speculative Decoding Meets Quantization: Compatibility Evaluation and Hierarchical Framework Design [34.04231165571518]
投機的復号化と量子化は、大きな言語モデルのメモリバウンド推論を効果的に加速する。
量子化は、重みとアクティベーションを低ビット幅に圧縮することでこれを達成し、低ビット行列乗算による計算を減らす。
実験により、4ビットの重み量子化によるメモリの利点は、投機的復号化による計算負荷によって減少することが示された。
論文 参考訳(メタデータ) (2025-05-28T09:55:08Z) - EntroLLM: Entropy Encoded Weight Compression for Efficient Large Language Model Inference on Edge Devices [3.297182592932918]
大きな言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すが、その大きなストレージと計算要求は、エッジデバイスへのデプロイメントを制限している。
本稿では,エントロピー符号化と混合量子化を統合した新しい圧縮フレームワークEntroLLMを提案する。
論文 参考訳(メタデータ) (2025-05-05T05:42:14Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。
LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。
LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文 参考訳(メタデータ) (2025-03-10T09:26:08Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。