論文の概要: NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.06694v1
- Date: Fri, 06 Feb 2026 13:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.40888
- Title: NanoQuant: Efficient Sub-1-Bit Quantization of Large Language Models
- Title(参考訳): NanoQuant: 大規模言語モデルの効率的なサブ-1ビット量子化
- Authors: Hyochan Chong, Dongkyu Kim, Changdong Kim, Minseop Choi,
- Abstract要約: NanoQuantは量子化を低ランク二乗分解問題として定式化する。
フル精度の重みを低ランクのバイナリ行列やスケールに圧縮する。
これは、サブ-1ビットの圧縮レートでも最先端の精度を達成する。
- 参考スコア(独自算出の注目度): 0.7349727826230863
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Weight-only quantization has become a standard approach for efficiently serving large language models (LLMs). However, existing methods fail to efficiently compress models to binary (1-bit) levels, as they either require large amounts of data and compute or incur additional storage. In this work, we propose NanoQuant, the first post-training quantization (PTQ) method to compress LLMs to both binary and sub-1-bit levels. NanoQuant formulates quantization as a low-rank binary factorization problem, and compresses full-precision weights to low-rank binary matrices and scales. Specifically, it utilizes an efficient alternating direction method of multipliers (ADMM) method to precisely initialize latent binary matrices and scales, and then tune the initialized parameters through a block and model reconstruction process. Consequently, NanoQuant establishes a new Pareto frontier in low-memory post-training quantization, achieving state-of-the-art accuracy even at sub-1-bit compression rates. NanoQuant makes large-scale deployment feasible on consumer hardware. For example, it compresses Llama2-70B by 25.8$\times$ in just 13 hours on a single H100, enabling a 70B model to operate on a consumer 8 GB GPU.
- Abstract(参考訳): 重みのみの量子化は、大規模言語モデル(LLM)を効率的に利用するための標準的アプローチとなっている。
しかし、既存の手法では、大量のデータと計算または追加のストレージを必要とするため、モデルをバイナリ(1ビット)レベルに効率よく圧縮することができない。
本研究では,LLMを2進法と1進法の両方に圧縮するPTQ法であるNanoQuantを提案する。
NanoQuantは量子化を低ランク二乗分解問題として定式化し、全精度重みを低ランク二乗行列とスケールに圧縮する。
具体的には、乗算器法(ADMM)の効率的な交互方向法を用いて、潜在二乗行列とスケールを正確に初期化し、ブロックとモデル再構成プロセスを通じて初期化パラメータをチューニングする。
結果としてNanoQuantは、低メモリ後の量子化において新しいParetoフロンティアを確立し、サブ-1ビット圧縮レートでも最先端の精度を達成する。
NanoQuantは、消費者向けハードウェア上で大規模なデプロイメントを実現する。
例えば、1つのH100でわずか13時間でLlama2-70Bを25.8$\times$で圧縮し、70Bモデルがコンシューマ8GBのGPUで動作できるようにする。
関連論文リスト
- Binary Quantization For LLMs Through Dynamic Grouping [13.578307208515819]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
16ビットのBrain Floatから-1,1の1ビットの表現にモデル重みを圧縮するバイナリ量子化は、ストレージと推論コストを大幅に削減する。
本稿では,2値量子化に適した新しい最適化目標と,これを効果的に実現するための3つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-03T06:36:21Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。
重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。
GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文 参考訳(メタデータ) (2024-07-03T08:08:01Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。