論文の概要: HARP: Hadamard-Preconditioned Adaptive Rotation Processor for Extreme LLM Quantization
- arxiv url: http://arxiv.org/abs/2605.29843v1
- Date: Thu, 28 May 2026 12:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.232964
- Title: HARP: Hadamard-Preconditioned Adaptive Rotation Processor for Extreme LLM Quantization
- Title(参考訳): HARP:Adamard-Preconditioned Adaptive Rotation Processor for Extreme LLM Quantization
- Authors: Artur Zagitov, Gleb Molodtsov, Aleksandr Beznosikov,
- Abstract要約: 本稿では, HARP (Hadamard-preconditioned Adaptive Rotation Processor) を導入する。
1Bから70Bまでのモデルの2-4ビット設定では、HARPは固定RHTよりもパープレキシティとゼロショット精度を改善している。
HarPはデプロイ効率を保ち、FP16では128トン/秒、61トン/秒に達する。
- 参考スコア(独自算出の注目度): 48.87937677659571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) is essential for deploying LLMs under memory and bandwidth constraints. However, extreme low-bit quantization remains highly sensitive to activation outliers and anisotropic weight curvature. Existing incoherence-based PTQ methods mitigate this issue with fixed randomized Hadamard transforms (RHTs), which improve quantization robustness but cannot adapt the rotated basis to the layer, calibration distribution, or quantizer. We introduce HARP (Hadamard-preconditioned Adaptive Rotation Processor), a learnable structured two-sided orthogonal processor that replaces fixed Hadamard mixing while preserving exact full-precision equivalence. HARP represents each rotation as a product of sparse butterfly-like block-orthogonal stages, supports non-power-of-two dimensions via Mixed-Radix schedules, and initializes to the RHT processor up to a fixed permutation. Fitted only on calibration data, HARP adapts the quantization basis to each layer and backend. Across 2-4 bit settings on models ranging from 1B to 70B parameters, HARP improves perplexity and zero-shot accuracy over fixed RHT. Importantly, HARP preserves deployment efficiency, reaching 128 tok/s versus 61 tok/s for FP16.
- Abstract(参考訳): 後トレーニング量子化(PTQ)は、メモリおよび帯域幅制約下でのLLMのデプロイに不可欠である。
しかし、極端な低ビット量子化は、活性化の外れ値や異方性ウェイト曲率に非常に敏感である。
既存の非コヒーレンスベースのPTQ法は、量子化ロバスト性を改善するが、回転基底を層、キャリブレーション分布、あるいは量子化器に適応できない固定ランダム化アダマール変換(RHT)によりこの問題を軽減する。
本稿では, HARP (Hadamard-preconditioned Adaptive Rotation Processor) を導入する。
HARPは、各回転をスパース蝶のようなブロック直交の積として表現し、Mixed-Radixスケジュールを介して2次元の非パワーをサポートする。
HARPはキャリブレーションデータのみに設定され、各レイヤとバックエンドに量子化ベースを適用する。
1Bから70Bまでのモデルの2-4ビット設定では、HARPは固定RHTよりもパープレキシティとゼロショット精度を改善している。
HARPはデプロイメント効率を保ち、FP16では128トン/s、61トン/sである。
関連論文リスト
- DiRotQ: Rotation-Aware Quantization for 4-bit Diffusion Transformers [3.0583214514538084]
Diffusion Transformer (DiTs) は最先端の画像生成品質を実現するが、推論時にかなりのメモリと計算コストを発生させる。
平滑化法、混合精度法、回転法、低ランク残差法などの既存の手法は、この問題を部分的に緩和するが、それでもFP16/BF16の性能に顕著なギャップを残している。
本稿では、回転認識型アクティベーション量子化による劣化を緩和するW4A4 PTQフレームワークであるDiRotQを紹介する。
論文 参考訳(メタデータ) (2026-05-16T00:52:00Z) - Reframing preprocessing selection as model-internal calibration in near-infrared spectroscopy: A large-scale benchmark of operator-adaptive PLS and Ridge models [0.2609784101826761]
本稿では,探索を1つのキャリブレーションステップに分解できる事例について検討する。
線形演算子適応キャリブレーションは、徹底的な前処理スクリーニングに匹敵する予測品質を与える。
論文 参考訳(メタデータ) (2026-05-13T14:23:00Z) - ReSpinQuant: Efficient Layer-Wise LLM Quantization via Subspace Residual Rotation Approximation [32.6734400537211]
大規模言語モデル(LLMs)の量子化におけるアクティベーションアウトレーヤの緩和のための有望なソリューションとして、PTQ(Post-Training Quantization)が登場した。
レイヤワイズ変換法が出現し、局所化適応により精度が向上した。
しかし、レイヤワイズ方式では、活性化回転行列を重みに融合することができず、オンライン計算が必要であり、大きなオーバーヘッドを引き起こす。
本稿では、オフライン活性化回転融合とマッチングベースを利用して、そのようなオーバーヘッドを解決する量子化フレームワークReSpinQuantを提案する。
論文 参考訳(メタデータ) (2026-04-13T07:00:26Z) - SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization [7.372706701787234]
学習後量子化(PTQ)は,大規模言語モデルを効率的に展開するための一般的な手法として登場した。
SERQは1つの低ランク補償行列を用いる低ビットLLM推論のためのサリエンシ対応誤差再構成法である。
論文 参考訳(メタデータ) (2026-03-09T10:04:12Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation [41.66473889057111]
Diffusion Transformer (DiTs) は、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において、優れたパフォーマンスを実現している。
DiTsの高計算コストと大きなパラメータサイズは、リソース制約のあるシナリオでの利用に重大な課題をもたらす。
本稿では,映像・映像生成のための学習後量子化フレームワークLRQ-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:16:11Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。