論文の概要: Binary Quantization For LLMs Through Dynamic Grouping
- arxiv url: http://arxiv.org/abs/2509.03054v2
- Date: Mon, 15 Sep 2025 05:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.402833
- Title: Binary Quantization For LLMs Through Dynamic Grouping
- Title(参考訳): 動的グルーピングによるLLMのバイナリ量子化
- Authors: Xinzhe Zheng, Zhen-Qun Yang, Haoran Xie, S. Joe Qin, Arlene Chen, Fangzhen Lin,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
16ビットのBrain Floatから-1,1の1ビットの表現にモデル重みを圧縮するバイナリ量子化は、ストレージと推論コストを大幅に削減する。
本稿では,2値量子化に適した新しい最適化目標と,これを効果的に実現するための3つのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 13.578307208515819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across a wide range of Natural Language Processing (NLP) tasks, but require substantial memory and computational resources. Binary quantization, which compresses model weights from 16-bit Brain Float to 1-bit representations in {-1, 1}, offers significant reductions in storage and inference costs. However, such aggressive quantization often leads to notable performance degradation compared to more conservative 4-bit quantization methods. In this research, we propose a novel optimization objective tailored for binary quantization, along with three algorithms designed to realize it effectively. Our method enhances blocked quantization by dynamically identifying optimal unstructured sub-matrices through adaptive grouping strategies. Experimental results demonstrate that our approach achieves an average bit length of just 1.007 bits, while maintaining high model quality. Specifically, our quantized LLaMA 3.2 3B model attains a perplexity of 8.23, remarkably close to the original 7.81, and surpasses previous SOTA BiLLM with a perplexity of only 123.90. Furthermore, our method is competitive with SOTA 4-bit approaches such as GPTQ in both performance and efficiency. The compression process is highly efficient, requiring only 14 seconds to quantize the full LLaMA 3.2 3B weights on a single CPU core, with the entire process completing in under 100 minutes and exhibiting embarrassingly parallel properties. Code - https://github.com/johnnyzheng0636/WGM_bi_quan
- Abstract(参考訳): 大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて顕著な性能を示すが、かなりのメモリと計算資源を必要とする。
16ビットのBrain Floatから1ビットの{-1, 1}へのモデル重みを圧縮したバイナリ量子化は、ストレージと推論コストを大幅に削減する。
しかし、このような攻撃的な量子化は、より保守的な4ビット量子化法と比較して顕著な性能劣化をもたらすことが多い。
本研究では,2値量子化に適した新しい最適化目標と,これを効果的に実現するための3つのアルゴリズムを提案する。
本手法は,適応的グループ化戦略により最適非構造部分行列を動的に同定することにより,ブロック量子化を向上させる。
実験により, モデル品質を維持しつつ, 平均ビット長が1.007ビットであることを示す。
具体的には、我々の量子化LLaMA 3.2 3Bモデルは、元の7.81に非常に近い8.23のパープレキシティを獲得し、以前のSOTA BiLLMをわずか123.90のパープレキシティで上回っている。
さらに,本手法は,GPTQなどのSOTA 4ビットアプローチと性能と効率の両面で競合する。
圧縮プロセスは非常に効率的で、1つのCPUコア上のLLaMA 3.2 3B重みを量子化するのに14秒しかかからない。
コード - https://github.com/johnnyzheng0636/WGM_bi_quan
関連論文リスト
- ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。
様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文 参考訳(メタデータ) (2024-08-16T06:39:08Z) - GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。
重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。
GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文 参考訳(メタデータ) (2024-07-03T08:08:01Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。