論文の概要: Boost Post-Training Quantization via Null Space Optimization for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.11044v1
- Date: Wed, 21 May 2025 14:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.510334
- Title: Boost Post-Training Quantization via Null Space Optimization for Large Language Models
- Title(参考訳): 大規模言語モデルのためのNull空間最適化による学習後量子化の強化
- Authors: Jiaqi Zhao, Miao Zhang, Weili Guan, Liqiang Nie,
- Abstract要約: 既存の大規模言語モデル(LLM)の学習後量子化手法は驚くべき成功を収めている。
余分な性能向上は、既存の量子化戦略がより圧縮されたモデルの開発を支援するには不十分であることを示唆している。
我々は、量子化後の重みを入力アクティベーションのヌル空間内に配置することで、量子化誤差を効果的に緩和することができると論じる。
- 参考スコア(独自算出の注目度): 68.82664224175876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing post-training quantization methods for large language models (LLMs) offer remarkable success. However, the increasingly marginal performance gains suggest that existing quantization strategies are insufficient to support the development of more compressed models. To inspire new directions for future research, this paper introduces the concept of null space into LLMs quantization. We argue that the quantization error can be effectively alleviated by constraining the post-quantization weight perturbation to lie within the null space of input activations. To prove this idea, we propose a plug-and-play null space projection module for existing milestone PTQ baselines named Q2N. Specifically, we first design an efficient and accurate null space projection approximation method tailored to the characteristics of LLMs. Subsequently, we theoretically derive a closed-form solution for an equivalent vector of the obtained projection matrix, which satisfies practical inference condition while avoiding additional memory overhead. Extensive experiments are conducted on various state-of-the-art LLMs (LLaMA3, DeepSeek, Qwen3) and baselines, demonstrating the effectiveness of both our Q2N and the perspective of null space optimization for LLMs quantization. We view this paper the first step to further alleviate the quantization error based on the insights of null space, hoping it inspiring future researchers to design more advanced quantization methods. Codes are available at https://github.com/zjq0455/q2n.
- Abstract(参考訳): 既存の大規模言語モデル(LLM)の学習後量子化手法は驚くべき成功を収めている。
しかし、より限界的な性能向上は、既存の量子化戦略がより圧縮されたモデルの開発を支援するには不十分であることを示唆している。
そこで本研究では,LLMの量子化にヌル空間の概念を導入する。
我々は、量子化後の重み摂動を入力アクティベーションのヌル空間内に配置することで、量子化誤差を効果的に緩和できると主張している。
このアイデアを証明するために,既存のマイルストーンPTQベースラインであるQ2Nに対して,プラグアンドプレイのヌル空間投影モジュールを提案する。
具体的には, LLMの特性に合わせて, 効率的かつ高精度な空間投影近似法を最初に設計する。
その後、理論上、得られたプロジェクション行列の等価ベクトルに対する閉形式解を導出し、追加のメモリオーバーヘッドを回避しつつ、実用的な推論条件を満たす。
各種の最先端LCM (LLaMA3, DeepSeek, Qwen3) およびベースラインで大規模な実験を行い、我々のQ2Nの有効性とLLMの量子化におけるヌル空間最適化の視点を実証した。
この論文は、ヌル空間の洞察に基づいて量子化誤差をさらに緩和する最初のステップであり、将来の研究者がより高度な量子化法を設計することを願っている。
コードはhttps://github.com/zjq0455/q2nで入手できる。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Pyramid Vector Quantization for LLMs [8.779688608449902]
大規模言語モデルのためのピラミッドベクトル量子化(PVQ)。
PVQは1次元球面に点を投影することで球面上の固定整数格子を用いており、メモリに明示的なコードブックを必要とせずに効率的な符号化と復号を行うことができる。
比較手法と比較した場合, 性能と重量当たりのビット, アクティベーション当たりのビット間でのパリト最適トレードオフにより, 最先端の量子化性能を実現する。
論文 参考訳(メタデータ) (2024-10-22T11:57:32Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - PB-LLM: Partially Binarized Large Language Models [14.244537605866864]
本稿では,Large Language Models (LLMs) 圧縮のために,モデル重みを1ビットに圧縮するネットワークバイナライゼーションについて検討する。
本稿では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partial-Binarized LLM)を提案する。
論文 参考訳(メタデータ) (2023-09-29T14:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。