論文の概要: ReSpinQuant: Efficient Layer-Wise LLM Quantization via Subspace Residual Rotation Approximation
- arxiv url: http://arxiv.org/abs/2604.11080v1
- Date: Mon, 13 Apr 2026 07:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.375916
- Title: ReSpinQuant: Efficient Layer-Wise LLM Quantization via Subspace Residual Rotation Approximation
- Title(参考訳): ReSpinQuant: 部分空間残留回転近似による高効率層幅LDM量子化
- Authors: Suyoung Kim, Sunghyun Wee, Hyeonjin Kim, Kyomin Hwang, Hyunho Lee, Nojun Kwak,
- Abstract要約: 大規模言語モデル(LLMs)の量子化におけるアクティベーションアウトレーヤの緩和のための有望なソリューションとして、PTQ(Post-Training Quantization)が登場した。
レイヤワイズ変換法が出現し、局所化適応により精度が向上した。
しかし、レイヤワイズ方式では、活性化回転行列を重みに融合することができず、オンライン計算が必要であり、大きなオーバーヘッドを引き起こす。
本稿では、オフライン活性化回転融合とマッチングベースを利用して、そのようなオーバーヘッドを解決する量子化フレームワークReSpinQuantを提案する。
- 参考スコア(独自算出の注目度): 32.6734400537211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rotation-based Post-Training Quantization (PTQ) has emerged as a promising solution for mitigating activation outliers in the quantization of Large Language Models (LLMs). Global rotation methods achieve inference efficiency by fusing activation rotations into attention and FFN blocks, but suffer from limited expressivity as they are constrained to use a single learnable rotation matrix across all layers. To tackle this, layer-wise transformation methods emerged, achieving superior accuracy through localized adaptation. However, layer-wise methods cannot fuse activation rotation matrices into weights, requiring online computations and causing significant overhead. In this paper, we propose ReSpinQuant, a quantization framework that resolves such overhead by leveraging offline activation rotation fusion and matching basis using efficient residual subspace rotation. This design reconciles the high expressivity of layer-wise adaptation with only negligible inference overhead. Extensive experiments on W4A4 and W3A3 quantization demonstrate that ReSpinQuant achieves state-of-the-art performance, outperforming global rotation methods and matching the accuracy of computationally expensive layer-wise methods with minimal overhead.
- Abstract(参考訳): 回転に基づくポストトレーニング量子化(PTQ)は,大規模言語モデル(LLM)の量子化において,アクティベーションアウトレーヤを緩和するための有望なソリューションとして登場した。
グローバルな回転法は、アクティベーション・ローテーションを注意とFFNブロックに融合させることで推論効率を達成するが、すべての層で単一の学習可能な回転行列を使用することが制限されるため、限られた表現性に悩まされる。
これを解決するために、レイヤワイズ変換法が登場し、ローカライズされた適応により精度が向上した。
しかし、レイヤワイズ方式では、活性化回転行列を重みに融合することができず、オンライン計算が必要であり、大きなオーバーヘッドを引き起こす。
本稿では,効率的な残余部分空間回転を用いたオフライン活性化回転融合とマッチング基底を利用して,そのようなオーバーヘッドを解消する量子化フレームワークReSpinQuantを提案する。
この設計は、レイヤワイズ適応の高表現性と、無視可能な推論オーバーヘッドとを一致させる。
W4A4およびW3A3量子化に関する大規模な実験は、ReSpinQuantが最先端の性能を達成し、グローバルローテーション法より優れ、計算コストのかかるレイヤーワイド法の精度を最小限のオーバーヘッドで一致させることを示した。
関連論文リスト
- RUQuant: Towards Refining Uniform Quantization for Large Language Models [17.258420059228808]
ポストトレーニング量子化(PTQ)は、再トレーニングを必要とせずにモデルを圧縮することで、実用的なソリューションとして登場した。
既存の方法は、アクティベーション分布の非一様性により、かなりの精度の劣化に悩まされることが多い。
本研究では,ロイド-マックス最適条件に基づく理論的な観点から,活性化量子化問題を再考する。
論文 参考訳(メタデータ) (2026-04-05T08:04:39Z) - SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization [7.372706701787234]
学習後量子化(PTQ)は,大規模言語モデルを効率的に展開するための一般的な手法として登場した。
SERQは1つの低ランク補償行列を用いる低ビットLLM推論のためのサリエンシ対応誤差再構成法である。
論文 参考訳(メタデータ) (2026-03-09T10:04:12Z) - Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - BASE-Q: Bias and Asymmetric Scaling Enhanced Rotational Quantization for Large Language Models [25.783531928577233]
BASE-Qは、偏差補正と非対称スケーリングを組み合わせて、丸め誤差やクリップ誤差を減らす、シンプルながら強力なアプローチである。
実験では、BASE-Qの有効性が示され、精度のギャップは、QuaRot、SpinQuant、OSTQuantと比較して50.5%、42.9%、29.2%縮小した。
論文 参考訳(メタデータ) (2025-05-26T14:22:21Z) - Grouped Sequency-arranged Rotation: Optimizing Rotation Transformation for Quantization for Free [5.074812070492738]
本稿では,現行手法の限界に対処する改良された回転行列を構築するための,新しい学習自由な手法を提案する。
主な貢献は、量子化誤差を減らすために類似の周波数成分をクラスタリングする順序順序付けによるウォルシュ・アダマール変換の活用である。
本手法は,WikiText-2上での推論タスクとパープレキシティ(PPL)スコアに頑健な性能を示す。
論文 参考訳(メタデータ) (2025-05-02T11:51:29Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inference [54.2589824716527]
大規模言語モデルは、その大規模なため、相当な計算とメモリ移動コストを発生させる。
既存のアプローチでは、外れ値と通常の値を2つの行列に分けたり、アクティベーションからウェイトに移行したりしています。
Smooth と Rotation 操作からなる量子化のためのプラグ・アンド・プレイ・アクティベーション・スムーザである Rotated Smooth (RRS) を提案する。
提案手法は,LLaMAおよびQwenファミリーにおける最先端の手法より優れており,IF4推論におけるWikiText-2の難易度は57.33から6.66に向上している。
論文 参考訳(メタデータ) (2024-09-30T14:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。