論文の概要: CoQuant: Joint Weight-Activation Subspace Projection for Mixed-Precision LLMs
- arxiv url: http://arxiv.org/abs/2604.26378v1
- Date: Wed, 29 Apr 2026 07:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.297966
- Title: CoQuant: Joint Weight-Activation Subspace Projection for Mixed-Precision LLMs
- Title(参考訳): CoQuant:混合精密LDMのための共同重量活性化サブスペース投影
- Authors: Zhe Ding, Su Pan, Duowei Pan,
- Abstract要約: CoQuantは、共同重量活性化部分空間投影法である。
Llama-3.2 と Qwen2.5 の実験では、CoQuant は強い PTQ ベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 0.2676349883103404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) has become an important technique for reducing the inference cost of Large Language Models (LLMs). While recent mixed-precision methods improve ultra-low bit quantization by preserving critical subspaces in high precision, they typically construct these subspaces relying solely on activation statistics. This ignores the fundamental nature of linear operations, where the output perturbation is jointly driven by both activation and weight quantization noise. In this paper, we propose CoQuant, a joint weight-activation subspace projection method. By theoretically modeling the expected output error, CoQuant formulates a closed-form weighted PCA solution that balances activation and weight covariances to select the optimal high-precision subspace. Extensive experiments on Llama-3.2 and Qwen2.5 models show that CoQuant consistently outperforms strong PTQ baselines in both WikiText perplexity and zero-shot common-sense reasoning accuracy. These results demonstrate that joint weight-activation subspace modeling provides a principled and effective direction for low-bit LLM quantization. The source code is available at https://github.com/Zachary5895/CoQuant.
- Abstract(参考訳): 学習後量子化(PTQ)は,Large Language Models (LLMs) の推論コストを削減する重要な手法となっている。
最近の混合精度法は、臨界部分空間を高精度に保存することで超低ビット量子化を改善するが、通常はアクティベーション統計にのみ依存してこれらの部分空間を構築する。
これは線形演算の基本的な性質を無視し、出力摂動は活性化と重み量子化ノイズの両方によって共同で駆動される。
本稿では, 共同重量活性化部分空間投影法であるCoQuantを提案する。
期待される出力誤差を理論的にモデル化することにより、CoQuantは活性化と重み共分散のバランスをとる閉形式重み付きPCA解を定式化し、最適な高精度部分空間を選択する。
Llama-3.2 と Qwen2.5 の大規模な実験により、CoQuant は WikiText のパープレキシティとゼロショットの常識推論精度の両方において、強力な PTQ ベースラインを一貫して上回っていることが示された。
これらの結果は,低ビットLLM量子化の原理的かつ効果的な方法として,連立重み活性化部分空間モデリングが有効であることを示している。
ソースコードはhttps://github.com/Zachary5895/CoQuant.comで入手できる。
関連論文リスト
- D$^2$Quant: Accurate Low-bit Post-Training Weight Quantization for LLMs [33.883527341335856]
軽量後トレーニング量子化(PTQ)は、メモリ使用量を減らし、低ビット演算子や専用ハードウェアを使わずに実用的なスピードアップを可能にするため、魅力的である。
精度は、重量のみのPTQにおいて、サブ-4ビットの精度で著しく低下する。
D$2$Quantは、ウェイトとアクティベーションの両方の観点から量子化を改善する新しいウェイトオンリーのPTQフレームワークである。
論文 参考訳(メタデータ) (2026-01-30T05:49:48Z) - Boost Post-Training Quantization via Null Space Optimization for Large Language Models [66.73751310500656]
既存の大規模言語モデル(LLM)の学習後量子化手法は驚くべき成功を収めている。
余分な性能向上は、既存の量子化戦略がより圧縮されたモデルの開発を支援するには不十分であることを示唆している。
我々は、量子化後の重みを入力アクティベーションのヌル空間内に配置することで、量子化誤差を効果的に緩和することができると論じる。
論文 参考訳(メタデータ) (2025-05-21T14:07:07Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化は、リソース制約のあるデバイスに大規模言語モデルをデプロイするための有望なソリューションである。
層間依存関係を考慮し、量子化重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [28.67781845829386]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、モデル出力を無視した層ワイドユークリッド損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むために,出力適応量子化(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。