論文の概要: The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm
- arxiv url: http://arxiv.org/abs/2507.18553v2
- Date: Wed, 01 Oct 2025 13:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.676988
- Title: The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm
- Title(参考訳): LLM量子化の幾何学:ババイの最も近い平面アルゴリズムとしてのGPTQ
- Authors: Jiale Chen, Yalda Shabanzadeh, Elvir Crnčević, Torsten Hoefler, Dan Alistarh,
- Abstract要約: GPTQは古典的最近ベクトル問題に対するババイの最も近い平面アルゴリズムと数学的に同一であることを示す。
我々は、クリッピングを回避し、元のGPTQより優れるポストトレーニング量子化法を設計する。
- 参考スコア(独自算出の注目度): 46.167267094420644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantizing the weights of large language models (LLMs) from 16-bit to lower bitwidth is the de facto approach to deploy massive transformers onto more affordable accelerators. While GPTQ emerged as one of the standard methods for one-shot post-training quantization at LLM scale, its inner workings are described as a sequence of ad-hoc algebraic updates that obscure geometric meaning or worst-case guarantees. In this work, we show that, when executed back-to-front (from the last to first dimension) for a linear layer, GPTQ is mathematically identical to Babai's nearest plane algorithm for the classical closest vector problem (CVP) on a lattice defined by the Hessian matrix of the layer's inputs. This equivalence is based on a sophisticated mathematical argument, and has two analytical consequences: first, the GPTQ error propagation step gains an intuitive geometric interpretation; second, GPTQ inherits the error upper bound of Babai's algorithm under the assumption that no weights are clipped. Leveraging this bound, we design post-training quantization methods that avoid clipping, and outperform the original GPTQ. In addition, we provide efficient GPU inference kernels for the resulting representation. Taken together, these results place GPTQ on a firm theoretical footing and open the door to importing decades of progress in lattice algorithms towards the design of future quantization algorithms for billion-parameter models.
- Abstract(参考訳): 16ビットから低ビット幅までの大型言語モデル(LLM)の重みを量子化することは、より安価なアクセラレーターに巨大なトランスフォーマーをデプロイするデファクトアプローチである。
GPTQは、LLMスケールでのワンショット後量子化の標準的な方法の1つとして登場したが、内部の動作は、幾何的な意味や最悪の場合の保証を示す、アドホックな代数的更新のシーケンスとして記述されている。
本研究では、線形層に対して(最後の1次元から1次元まで)前向きに実行されるとき、GPTQは、階層の入力のヘッセン行列によって定義される格子上の古典的最近ベクトル問題(CVP)に対するババイの最も近い平面アルゴリズムと数学的に同一であることを示す。
第一に、GPTQの誤差伝播ステップは直観的な幾何学的解釈を得る;第二に、GPTQは重みをクリップしないという仮定の下で、ババイのアルゴリズムの誤差上限を継承する。
このバウンダリを活用して、クリッピングを回避し、元のGPTQより優れるポストトレーニング量子化法を設計する。
さらに、結果の表現のために効率的なGPU推論カーネルを提供する。
これらの結果は、GPTQをしっかりとした理論的基盤の上に置き、数十億パラメータモデルの将来の量子化アルゴリズムの設計に向けた格子アルゴリズムの数十年の進歩をインポートする扉を開く。
関連論文リスト
- The Lattice Geometry of Neural Network Quantization -- A Short Equivalence Proof of GPTQ and Babai's algorithm [0.0]
ニューラルネットワークにおける線形単位のデータ駆動量子化は、入力データによって生成される特定の格子に対して最も近いベクトル問題を解くのにどのように対応するかを示す。
我々は、GPTQアルゴリズムがババイのよく知られた最寄り平面アルゴリズムと等価であることを証明した。
論文 参考訳(メタデータ) (2025-08-01T21:20:58Z) - Halving the Cost of Quantum Algorithms with Randomization [0.138120109831448]
量子信号処理(QSP)は、線形演算子の変換を実装するための体系的なフレームワークを提供する。
近年の研究では、量子チャネルへのユニタリゲートを促進する技術であるランダム化コンパイルが開発されている。
提案アルゴリズムは, 平均進化が対象関数に収束するように戦略的に選択されたランダム化の確率的混合を実装し, 誤差は等価個体よりも2次的に小さい。
論文 参考訳(メタデータ) (2024-09-05T17:56:51Z) - CDQuant: Greedy Coordinate Descent for Accurate LLM Quantization [8.92409376299856]
大規模言語モデル(LLM)は、最近、様々な言語タスクで顕著なパフォーマンスを示した。
量子化は、パフォーマンスに最小限の影響を伴って大きなモデルの圧縮を可能にする重要な技術として登場した。
学習後量子化(PTQ)法であるGPTQアルゴリズムは,LLMの圧縮に極めて有効であることが証明されている。
我々は、GPTQの単純でスケーラブルな代替品であるCDQuantを導入し、性能を改善した。
論文 参考訳(メタデータ) (2024-06-25T13:29:14Z) - Rethinking Model Selection and Decoding for Keyphrase Generation with
Pre-trained Sequence-to-Sequence Models [76.52997424694767]
キーフレーズ生成(英: Keyphrase Generation, KPG)は、NLPにおける長年の課題である。
Seq2seq 事前訓練言語モデル (PLM) は KPG に転換期を迎え、有望な性能改善をもたらした。
本稿では, PLM に基づく KPG におけるモデル選択と復号化戦略の影響について, 系統解析を行った。
論文 参考訳(メタデータ) (2023-10-10T07:34:45Z) - QuIP: 2-Bit Quantization of Large Language Models With Guarantees [44.212441764241]
本研究では,大規模言語モデル(LLM)における学習後のパラメータ量子化について研究する。
Incoherence Processing (QuIP) を用いた量子化を導入する。これは、$textitincoherent$ weight と Hessian matrices から量子化が恩恵を受けるという知見に基づく新しい方法である。
論文 参考訳(メタデータ) (2023-07-25T07:44:06Z) - Global optimization of MPS in quantum-inspired numerical analysis [0.0]
この研究は、ハミルトン方程式の最も低い固有状態の探索に焦点を当てている。
5つのアルゴリズムが導入された: 想像時間進化、最も急勾配降下、改良された降下、暗黙的に再起動されたアルノルニ法、密度行列再正規化群 (DMRG) 最適化。
論文 参考訳(メタデータ) (2023-03-16T16:03:51Z) - Orthogonal Polynomials Approximation Algorithm (OPAA):a functional
analytic approach to estimating probability densities [0.0]
新しい直交多項式近似アルゴリズム(OPAA)を提案する。
OPAAは機能解析手法を用いて確率分布を推定する。
後部の正規化重量を推定するために応用できる。
論文 参考訳(メタデータ) (2022-11-16T00:51:00Z) - Finite-Time Error Bounds for Greedy-GQ [20.51105692499517]
We show that Greedy-GQ algorithm converges fast-time error。
我々の分析は、ステップサイズを選択するために、より高速な収束ステップサイズを提供する。
論文 参考訳(メタデータ) (2022-09-06T15:04:57Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - A Parallelizable Lattice Rescoring Strategy with Neural Language Models [62.20538383769179]
自動音声認識のためのニューラルネットワークモデル(LM)を用いた効率的な格子相関のための後部格子拡張アルゴリズムを提案する。
スイッチボードデータセットにおける実験により,提案手法が同等の認識性能を得た。
PyTorchで訓練されたニューラル LM をKaldi との格子再構成に簡単に統合することで、並列再描画法により柔軟性が向上する。
論文 参考訳(メタデータ) (2021-03-08T21:23:12Z) - Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。
この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。
古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文 参考訳(メタデータ) (2020-07-01T18:43:32Z) - Non-asymptotic Convergence of Adam-type Reinforcement Learning
Algorithms under Markovian Sampling [56.394284787780364]
本稿では、ポリシー勾配(PG)と時間差(TD)学習の2つの基本RLアルゴリズムに対して、最初の理論的収束解析を行う。
一般の非線形関数近似の下では、PG-AMSGradは定常点の近傍に収束し、$mathcalO(log T/sqrtT)$である。
線形関数近似の下では、一定段階のTD-AMSGradは$mathcalO(log T/sqrtT)の速度で大域的最適化の近傍に収束する。
論文 参考訳(メタデータ) (2020-02-15T00:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。