論文の概要: LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection
- arxiv url: http://arxiv.org/abs/2606.04050v1
- Date: Tue, 02 Jun 2026 08:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.269192
- Title: LiftQuant: Continuous Bit-Width LLM via Dimensional Lifting and Projection
- Title(参考訳): LiftQuant: 次元リフティングと投影による連続ビット幅LDM
- Authors: Liulu He, XuanAng Liu, Juntao Liu, Taolue Feng, Ting Lu, Chunsheng Gan, Zhiyv Peng, Yuan Du, Huanrui Yang, Yijiang Liu, Li Du,
- Abstract要約: 連続的なビット幅制御のための新しいフレームワークLiftQuantを紹介する。
中心となる革新は、低次元の重みベクトルを近似する「リフト・then-project」機構である。
LiftQuantの復号経路は、線形変換と1ビットの一様量子化器にのみ依存する。
- 参考スコア(独自算出の注目度): 22.56026410008384
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing quantization methods are fundamentally limited by rigid, integer-based bit-widths (e.g., 2, 3-bit), resulting in a ``deployment gap" where Large Language Models cannot be optimally fitted to specific memory budgets. To bridge this gap, we introduce LiftQuant, a novel framework that enables continuous bit-width control for true Pareto-optimal deployment. The core innovation is a ``lift-then-project" mechanism which approximates low-dimensional weight vectors by projecting a simple 1-bit lattice from a higher-dimensional ``lifted" space. Crucially, the effective bit-width is determined simply by the ratio of the lifted dimension to the original dimension, which allows the bit-width to be tuned quasi-continuous as the dimension is a flexible structural parameter. This projection generates a structured yet non-uniform codebook, capturing the expressive power of Vector Quantization (VQ). While beneficial over VQ, LiftQuant's decoding path relies solely on linear transformations and 1-bit uniform quantizers, retaining hardware-friendly nature. This flexibility is transformative: LiftQuant enables a 70B LLM to be compressed to 2.4 bits to precisely fit a 24GB GPU, where its performance significantly surpasses state-of-the-art 2-bit models fitted on the same device. Our code and ckpt is available at https://github.com/Heliulu/LiftQuant.
- Abstract(参考訳): 既存の量子化法は、厳密な整数ベースのビット幅(例:2, 3-bit)で基本的に制限されているため、大きな言語モデルが特定のメモリ予算に最適に適合できない「デプロイギャップ」が生じる。このギャップを埋めるために、我々は、真のパレート最適配置のために連続的なビット幅制御を可能にする新しいフレームワークLiftQuantを紹介した。この中心となる革新は、高次元の「リフトド」空間から単純な1ビット格子を投影することで、低次元の重みベクトルを近似する「リフト・テン・プロジェクト」機構である。
重要なことに、有効ビット幅は単に持ち上げられた次元と元の次元との比で決定されるので、その次元が柔軟な構造パラメータであるため、ビット幅を準連続的に調整することができる。
このプロジェクションは構造化されているが一様でないコードブックを生成し、ベクトル量子化(VQ)の表現力を取得する。
VQよりも有益であるが、LiftQuantの復号経路は線形変換と1ビット均一量子化器にのみ依存しており、ハードウェアに優しい性質を維持している。
LiftQuantは70B LLMを2.4ビットに圧縮して24GBのGPUに正確に適合させることができる。
私たちのコードとckptはhttps://github.com/Heliulu/LiftQuant.comから入手可能です。
関連論文リスト
- Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。
また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文 参考訳(メタデータ) (2025-09-25T15:17:11Z) - Speculative Decoding Meets Quantization: Compatibility Evaluation and Hierarchical Framework Design [34.04231165571518]
投機的復号化と量子化は、大きな言語モデルのメモリバウンド推論を効果的に加速する。
量子化は、重みとアクティベーションを低ビット幅に圧縮することでこれを達成し、低ビット行列乗算による計算を減らす。
実験により、4ビットの重み量子化によるメモリの利点は、投機的復号化による計算負荷によって減少することが示された。
論文 参考訳(メタデータ) (2025-05-28T09:55:08Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。