論文の概要: OJBKQ: Objective-Joint Babai-Klein Quantization
- arxiv url: http://arxiv.org/abs/2602.08376v1
- Date: Mon, 09 Feb 2026 08:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.125965
- Title: OJBKQ: Objective-Joint Babai-Klein Quantization
- Title(参考訳): OJBKQ: 客観的なババイクライン量子化
- Authors: Xinyu Wang, Ziyu Zhao, Peng Lu, Yu Gu, Xiao-Wen Chang,
- Abstract要約: OJBKQは、活性化と重みに対する共同最適化問題として重み量子化を定式化する層ワイドPTQ法である。
その結果,OJBKQは既存のPTQに比べて3,4ビットのパープレキシティが低いことがわかった。
- 参考スコア(独自算出の注目度): 13.930991942645276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) is widely used to compress large language models without retraining. However, many existing weight-only methods rely on heuristic objectives and greedy rounding, thus leading to noticeable degradation under low-bit quantization. In this work, we introduce OJBKQ (Objective-Joint Babai-Klein Quantization with K-Best Sampling), a layer-wise PTQ method that formulates weight quantization as a joint optimization problem over activations and weights. This formulation results in a multiple-right-hand-side box-constrained integer least squares (BILS) problem in each layer, which is NP-hard. For each column of the weight matrix, we apply an extended Babai nearest-plane algorithm and an extended version of Klein's randomized Babai algorithm to find the minimum-residual Babai-Klein point, a sub-optimal solution to the BILS problem. Experimental results on large language models show that OJBKQ achieves lower perplexity at 3-4 bits compared to existing PTQ approaches, while maintaining comparable computational cost.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、大規模な言語モデルを再学習せずに圧縮するために広く使われている。
しかし、多くの既存の重みのみの手法はヒューリスティックな目的と強欲な丸めに依存しており、低ビット量子化の下で顕著に劣化する。
本稿では,活性化と重みに対する共同最適化問題として重み量子化を定式化する層ワイドPTQ法であるOJBKQ(Objective-Joint Babai-Klein Quantization with K-Best Smpling)を紹介する。
この定式化は、NPハードである各層における多重右辺ボックス制約整数最小二乗問題(BILS)をもたらす。
重み行列の各列に対して、拡張Babai準平面アルゴリズムとKleinのランダム化Babaiアルゴリズムの拡張版を適用し、BILS問題に対する準最適解である最小残差Babai-Klein点を求める。
大規模言語モデルによる実験結果から,OJBKQは既存のPTQ手法に比べて3,4ビットのパープレキシティが低く,計算コストは同等であることがわかった。
関連論文リスト
- MatGPTQ: Accurate and Efficient Post-Training Matryoshka Quantization [35.18619976978831]
Matryoshka Quantization (MatQuant) は、1つの整数量子化モデルを複数の精度で提供できることを示す最近の量子化手法である。
実験後マトリシカ量子化(MatGPTQ)を提案する。これはPTQパイプラインで、1ショットで複数のターゲット精度に最適化された1つの親モデルを生成する。
論文 参考訳(メタデータ) (2026-02-03T13:52:18Z) - Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - A competitive NISQ and qubit-efficient solver for the LABS problem [0.0]
パウリ相関。
(PCE)は、近年、変分量子アルゴリズムにおける問題を最適化するための量子ビット効率のアプローチとして導入されている。
我々はPCEベースのフレームワークを拡張し、LABS(Low Autocorrelation Binary Sequences)問題を解決する。
論文 参考訳(メタデータ) (2025-06-20T18:00:02Z) - BAQ: Efficient Bit Allocation Quantization for Large Language Models [8.427223431012454]
学習後モデルの量子化は、大規模言語モデルのメモリと計算コストを削減するために広く採用されている手法である。
既存の手法の多くは均一またはビット幅の割り当てに依存しており、量子化ノイズに対するウェイトの不均一な感度を考慮できない。
本稿では,Hessianプロキシから得られた感度指標に基づいて,量子化ビット幅を割り当てる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-06T01:27:01Z) - Pyramid Vector Quantization for LLMs [8.779688608449902]
大規模言語モデルのためのピラミッドベクトル量子化(PVQ)。
PVQは1次元球面に点を投影することで球面上の固定整数格子を用いており、メモリに明示的なコードブックを必要とせずに効率的な符号化と復号を行うことができる。
比較手法と比較した場合, 性能と重量当たりのビット, アクティベーション当たりのビット間でのパリト最適トレードオフにより, 最先端の量子化性能を実現する。
論文 参考訳(メタデータ) (2024-10-22T11:57:32Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。