論文の概要: Leech Lattice Vector Quantization for Efficient LLM Compression
- arxiv url: http://arxiv.org/abs/2603.11021v1
- Date: Wed, 11 Mar 2026 17:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.08658
- Title: Leech Lattice Vector Quantization for Efficient LLM Compression
- Title(参考訳): 効率的なLDM圧縮のためのリーチ格子ベクトル量子化
- Authors: Tycho F. A. van der Ouderaa, Mart van Baalen, Paul Whatmough, Markus Nagel,
- Abstract要約: 大規模言語モデル(LLM)のスカラー量子化は、情報理論境界によって根本的に制限される。
格子のアプローチは、高度に構造化され密度の高いパッキングによってこの問題に対処する。
本稿では, 最適球充填と24次元の配置を持つリーチ格子について検討する。
- 参考スコア(独自算出の注目度): 14.30043196749498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scalar quantization of large language models (LLMs) is fundamentally limited by information-theoretic bounds. While vector quantization (VQ) overcomes these limits by encoding blocks of parameters jointly, practical implementations must avoid the need for expensive lookup mechanisms or other explicit codebook storage. Lattice approaches address this through highly structured and dense packing. This paper explores the Leech lattice, which, with its optimal sphere packing and kissing configurations at 24 dimensions, is the highest dimensional lattice known with such optimal properties. To make the Leech lattice usable for LLM quantization, we extend an existing search algorithm based on the extended Golay code construction, to i) support indexing, enabling conversion to and from bitstrings without materializing the codebook, ii) allow angular search over union of Leech lattice shells, iii) propose fully-parallelisable dequantization kernel. Together this yields a practical algorithm, namely Leech Lattice Vector Quantization (LLVQ). LLVQ delivers state-of-the-art LLM quantization performance, outperforming recent methods such as Quip\#, QTIP, and PVQ. These results highlight the importance of high-dimensional lattices for scalable, theoretically grounded model compression.
- Abstract(参考訳): 大規模言語モデル(LLM)のスカラー量子化は、情報理論境界によって根本的に制限される。
ベクトル量子化(VQ)はパラメータのブロックを共同で符号化することでこれらの制限を克服するが、実用的な実装は高価なルックアップ機構や他の明示的なコードブックストレージの必要性を避ける必要がある。
格子のアプローチは、高度に構造化され密度の高いパッキングによってこの問題に対処する。
本稿では,24次元の最適球組とキス構成を持つリーチ格子を探索し,そのような最適特性で知られている最も高次元の格子について述べる。
LLM量子化にLeech格子を利用できるようにするため、拡張されたGolayコード構造に基づく既存の探索アルゴリズムを拡張した。
i) コードブックを具体化せずにビットストリングへの変換を可能にするインデックス作成のサポート
二 リーチ格子殻の結合に関する角捜索を許すこと。
三 完全並列化可能な復号化カーネルを提案すること。
これにより、リーチ格子ベクトル量子化(LLVQ)という実用的なアルゴリズムが得られる。
LLVQは最先端のLLM量子化性能を提供し、Quip\#、QTIP、PVQといった最近の手法よりも優れている。
これらの結果は、スケーラブルで理論的に基礎付けられたモデル圧縮のための高次元格子の重要性を強調している。
関連論文リスト
- Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - SBVR: Summation of BitVector Representation for Efficient LLM Quantization [3.7018544730078413]
データ中の表現可能な点の数を制限することで量子化圧縮は、効率的な量子化の鍵となる。
既存のPTQ(Post-Training Quantization)ソリューションでは、ラウンドツーネアレス(RTN)ベースの方法とコードブックベースの方法の2つの主要なアプローチが採用されている。
SBVR(Summation of Bitplex Representation, ビットプレックス表現の要約)を提案する。
論文 参考訳(メタデータ) (2025-09-17T13:51:27Z) - Boost Post-Training Quantization via Null Space Optimization for Large Language Models [66.73751310500656]
既存の大規模言語モデル(LLM)の学習後量子化手法は驚くべき成功を収めている。
余分な性能向上は、既存の量子化戦略がより圧縮されたモデルの開発を支援するには不十分であることを示唆している。
我々は、量子化後の重みを入力アクティベーションのヌル空間内に配置することで、量子化誤差を効果的に緩和することができると論じる。
論文 参考訳(メタデータ) (2025-05-21T14:07:07Z) - Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。
LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。
LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文 参考訳(メタデータ) (2025-03-10T09:26:08Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Pyramid Vector Quantization for LLMs [8.779688608449902]
大規模言語モデルのためのピラミッドベクトル量子化(PVQ)。
PVQは1次元球面に点を投影することで球面上の固定整数格子を用いており、メモリに明示的なコードブックを必要とせずに効率的な符号化と復号を行うことができる。
比較手法と比較した場合, 性能と重量当たりのビット, アクティベーション当たりのビット間でのパリト最適トレードオフにより, 最先端の量子化性能を実現する。
論文 参考訳(メタデータ) (2024-10-22T11:57:32Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。