論文の概要: ProjQ: Project-and-Quantize for Adapter-Aware LLM Compression
- arxiv url: http://arxiv.org/abs/2606.00494v2
- Date: Tue, 02 Jun 2026 02:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.680767
- Title: ProjQ: Project-and-Quantize for Adapter-Aware LLM Compression
- Title(参考訳): ProjQ: 適応型LLM圧縮のためのProject-and-Quantize
- Authors: Wenya Yu, Chao Zhang, Li Wang, Samson Lasaulce, Merouane Debbah,
- Abstract要約: トレーニング後の量子化(PTQ)とローランド適応(LoRA)は、LLM(Large Language Model)の効率的なデプロイメントのための標準パイプラインである。
量子化雑音を低ランク多様体に制約する新しいフレームワークである textbfProjQ を提案する。
ProjQは、量子化エラー補償と下流タスクの微調整の両方において、既存のメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 6.552705478160877
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Post-Training Quantization (PTQ) and Low-Rank Adaptation (LoRA) constitute the standard pipeline for efficient Large Language Model (LLM) deployment. However, applying them sequentially poses a problem: PTQ often leaves behind random noise that is spread out (across the model's weights) in a way LoRA can't easily fix, meaning that LoRA ends up wasting its limited capacity trying to fix uncorrectable noise instead of improving task performance. In this paper, we propose \textbf{ProjQ}, a novel framework for constraining quantization noise to the low-rank manifold via orthogonal subspace projection. We derive an efficient alternating algorithm that shapes the quantization noise into a low-rank structure, effectively offloading dominant error components to the subsequent adapter while minimizing the residual error in the orthogonal "uncorrectable" subspace. Our theoretical analysis demonstrates that ProjQ preserves strictly greater model plasticity for downstream tasks compared to standard PTQ. Extensive experiments on LLaMA-2, Qwen2.5 and Qwen3 confirm that ProjQ consistently outperforms existing methods in both quantization error compensation and downstream task fine-tuning, achieving up to $2\times$ lower evaluation loss for compensation and matching the performance of standard 4-bit baselines on language modeling tasks with only 3 bits. The code is available on https://github.com/yy9301/ProjQ .
- Abstract(参考訳): トレーニング後の量子化(PTQ)とローランド適応(LoRA)は、LLM(Large Language Model)の効率的なデプロイメントのための標準パイプラインである。
しかし、それらを順次適用すると、問題が発生する:PTQはしばしば、LoRAが容易に修正できない方法で(モデルの重みを越えて)拡散するランダムノイズを残します。
本稿では,直交部分空間射影による低ランク多様体への量子化雑音を制約する新しいフレームワークである \textbf{ProjQ} を提案する。
我々は、量子化ノイズを低ランク構造にし、直交的な「修正不能」部分空間の残差を最小限に抑えながら、支配的エラー成分を後続のアダプタに効果的にオフロードする効率的な交互化アルゴリズムを導出する。
理論解析により,ProjQは標準PTQに比べて,下流タスクにおいて厳密なモデル可塑性を保っていることが示された。
LLaMA-2、Qwen2.5、Qwen3の大規模な実験により、ProjQは量子化エラー補償とダウンストリームタスクの微調整の両方において既存の手法を一貫して上回り、補償のための最大2\times$評価損失を達成し、言語モデリングタスクの標準4ビットベースラインのパフォーマンスをわずか3ビットで一致させることを確認した。
コードはhttps://github.com/yy9301/ProjQで入手できる。
関連論文リスト
- LFQ: Logit-aware Final-block Quantization for Boosting the Generation Quality of Low-Bit Quantized LLMs [52.1276403258812]
ブロックワイドPTQの簡易かつ効果的な拡張であるLFQ(Logit-aware Final-block Quantization)を導入する。
LFQは、最先端のブロックワイドPTQよりも複雑な生成タスクの精度を一貫して改善する。
論文 参考訳(メタデータ) (2026-05-28T11:02:23Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation [41.66473889057111]
Diffusion Transformer (DiTs) は、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において、優れたパフォーマンスを実現している。
DiTsの高計算コストと大きなパラメータサイズは、リソース制約のあるシナリオでの利用に重大な課題をもたらす。
本稿では,映像・映像生成のための学習後量子化フレームワークLRQ-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:16:11Z) - Quantization Meets Reasoning: Exploring and Mitigating Degradation of Low-Bit LLMs in Mathematical Reasoning [39.56908863102256]
低ビット後の量子化は、より厳しい設定で69.81%の数学的推論を損なう。
デプロイクリティカルな2つの問題に,プロセスレベルの精度で対処する。
われわれの設定では、332のキュレートされたサンプルと1つのGPUで3~5分計算すると、完全な精度のベースラインに向かって4ビットの重み計算が引き起こされる。
論文 参考訳(メタデータ) (2025-05-16T12:11:40Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantization [18.017182472532415]
ASERは、SVDを白化して構築したLoRAスタイルの行列を用いた量子化誤差に対する低ランク補償からなるアルゴリズムである。
ASERは、典型的な外れ値を低ビットの値に量子化することができる。
論文 参考訳(メタデータ) (2024-11-12T12:52:04Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。