論文の概要: OJBKQ: Objective-Joint Babai-Klein Quantization
- arxiv url: http://arxiv.org/abs/2602.08376v1
- Date: Mon, 09 Feb 2026 08:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.125965
- Title: OJBKQ: Objective-Joint Babai-Klein Quantization
- Title(参考訳): OJBKQ: 客観的なババイクライン量子化
- Authors: Xinyu Wang, Ziyu Zhao, Peng Lu, Yu Gu, Xiao-Wen Chang,
- Abstract要約: OJBKQは、活性化と重みに対する共同最適化問題として重み量子化を定式化する層ワイドPTQ法である。
その結果,OJBKQは既存のPTQに比べて3,4ビットのパープレキシティが低いことがわかった。
- 参考スコア(独自算出の注目度): 13.930991942645276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) is widely used to compress large language models without retraining. However, many existing weight-only methods rely on heuristic objectives and greedy rounding, thus leading to noticeable degradation under low-bit quantization. In this work, we introduce OJBKQ (Objective-Joint Babai-Klein Quantization with K-Best Sampling), a layer-wise PTQ method that formulates weight quantization as a joint optimization problem over activations and weights. This formulation results in a multiple-right-hand-side box-constrained integer least squares (BILS) problem in each layer, which is NP-hard. For each column of the weight matrix, we apply an extended Babai nearest-plane algorithm and an extended version of Klein's randomized Babai algorithm to find the minimum-residual Babai-Klein point, a sub-optimal solution to the BILS problem. Experimental results on large language models show that OJBKQ achieves lower perplexity at 3-4 bits compared to existing PTQ approaches, while maintaining comparable computational cost.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、大規模な言語モデルを再学習せずに圧縮するために広く使われている。
しかし、多くの既存の重みのみの手法はヒューリスティックな目的と強欲な丸めに依存しており、低ビット量子化の下で顕著に劣化する。
本稿では,活性化と重みに対する共同最適化問題として重み量子化を定式化する層ワイドPTQ法であるOJBKQ(Objective-Joint Babai-Klein Quantization with K-Best Smpling)を紹介する。
この定式化は、NPハードである各層における多重右辺ボックス制約整数最小二乗問題(BILS)をもたらす。
重み行列の各列に対して、拡張Babai準平面アルゴリズムとKleinのランダム化Babaiアルゴリズムの拡張版を適用し、BILS問題に対する準最適解である最小残差Babai-Klein点を求める。
大規模言語モデルによる実験結果から,OJBKQは既存のPTQ手法に比べて3,4ビットのパープレキシティが低く,計算コストは同等であることがわかった。
関連論文リスト
- MatGPTQ: Accurate and Efficient Post-Training Matryoshka Quantization [35.18619976978831]
Matryoshka Quantization (MatQuant) は、1つの整数量子化モデルを複数の精度で提供できることを示す最近の量子化手法である。
実験後マトリシカ量子化(MatGPTQ)を提案する。これはPTQパイプラインで、1ショットで複数のターゲット精度に最適化された1つの親モデルを生成する。
論文 参考訳(メタデータ) (2026-02-03T13:52:18Z) - Rethinking Output Alignment For 1-bit Post-Training Quantization of Large Language Models [41.677469535447024]
大きな言語モデル(LLM)は、幅広いNLPタスクに対して強力なパフォーマンスを提供するが、その巨大なサイズは、リソースに制約のあるデバイスへのデプロイメントを妨げる。
トレーニング後の量子化(PTQ)は、リトレーニングを必要とせず、キャリブレーションのための小さなデータセットのみを必要とするため、その効率性に広く採用されている。
ポストトレーニング量子化の最近の進歩は、サブ4ビット法でさえオリジナルのモデル性能のほとんどを維持できることを示した。
論文 参考訳(メタデータ) (2025-12-25T12:39:36Z) - Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - A competitive NISQ and qubit-efficient solver for the LABS problem [0.0]
パウリ相関。
(PCE)は、近年、変分量子アルゴリズムにおける問題を最適化するための量子ビット効率のアプローチとして導入されている。
我々はPCEベースのフレームワークを拡張し、LABS(Low Autocorrelation Binary Sequences)問題を解決する。
論文 参考訳(メタデータ) (2025-06-20T18:00:02Z) - BAQ: Efficient Bit Allocation Quantization for Large Language Models [8.427223431012454]
学習後モデルの量子化は、大規模言語モデルのメモリと計算コストを削減するために広く採用されている手法である。
既存の手法の多くは均一またはビット幅の割り当てに依存しており、量子化ノイズに対するウェイトの不均一な感度を考慮できない。
本稿では,Hessianプロキシから得られた感度指標に基づいて,量子化ビット幅を割り当てる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-06T01:27:01Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - Pyramid Vector Quantization for LLMs [8.779688608449902]
大規模言語モデルのためのピラミッドベクトル量子化(PVQ)。
PVQは1次元球面に点を投影することで球面上の固定整数格子を用いており、メモリに明示的なコードブックを必要とせずに効率的な符号化と復号を行うことができる。
比較手法と比較した場合, 性能と重量当たりのビット, アクティベーション当たりのビット間でのパリト最適トレードオフにより, 最先端の量子化性能を実現する。
論文 参考訳(メタデータ) (2024-10-22T11:57:32Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Q-Match: Iterative Shape Matching via Quantum Annealing [64.74942589569596]
形状対応を見つけることは、NP-hard quadratic assignment problem (QAP)として定式化できる。
本稿では,アルファ拡大アルゴリズムに触発されたQAPの反復量子法Q-Matchを提案する。
Q-Match は、実世界の問題にスケールできるような長文対応のサブセットにおいて、反復的に形状マッチング問題に適用できる。
論文 参考訳(メタデータ) (2021-05-06T17:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。