論文の概要: SingleQuant: Efficient Quantization of Large Language Models in a Single Pass
- arxiv url: http://arxiv.org/abs/2511.22316v1
- Date: Thu, 27 Nov 2025 10:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.520932
- Title: SingleQuant: Efficient Quantization of Large Language Models in a Single Pass
- Title(参考訳): SingleQuant: 単一パスにおける大規模言語モデルの効率的な量子化
- Authors: Jinying Xiao, Bin Ji, Shasha Li, Xiaodong Liu, Ma Jun, Ye Zhong, Wei Li, Xuan Xie, Qingbo Wu, Jie Yu,
- Abstract要約: 量子化切り離しを分離する単一パス量子化フレームワークであるSingleQuantを提案する。
具体的には、SingleQuantはアクティベーションアウトリアをターゲットとしたアライメント回転変換(ART)と統一回転変換(URT)を構築している。
実験の結果、SingleQuantは様々なタスクにまたがる選択されたベースラインよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 17.504732263852876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) quantization facilitates deploying LLMs in resource-limited settings, but existing methods that combine incompatible gradient optimization and quantization truncation lead to serious convergence pathology. This prolongs quantization time and degrades LLMs' task performance. Our studies confirm that Straight-Through Estimator (STE) on Stiefel manifolds introduce non-smoothness and gradient noise, obstructing optimization convergence and blocking high-fidelity quantized LLM development despite extensive training. To tackle the above limitations, we propose SingleQuant, a single-pass quantization framework that decouples from quantization truncation, thereby eliminating the above non-smoothness and gradient noise factors. Specifically, SingleQuant constructs Alignment Rotation Transformation (ART) and Uniformity Rotation Transformation (URT) targeting distinct activation outliers, where ART achieves smoothing of outlier values via closed-form optimal rotations, and URT reshapes distributions through geometric mapping. Both matrices comprise strictly formulated Givens rotations with predetermined dimensions and rotation angles, enabling promising LLMs task performance within a short time. Experimental results demonstrate SingleQuant's superiority over the selected baselines across diverse tasks on 7B-70B LLMs. To be more precise, SingleQuant enables quantized LLMs to achieve higher task performance while necessitating less time for quantization. For example, when quantizing LLaMA-2-13B, SingleQuant achieves 1,400$\times$ quantization speedup and increases +0.57\% average task performance compared to the selected best baseline.
- Abstract(参考訳): LLM(Large Language Models)量子化は、リソース制限された設定でのLLMの展開を容易にするが、非互換な勾配最適化と量子化トランケーションを組み合わせた既存の手法は、深刻な収束病理をもたらす。
これにより量子化時間が長くなり、LLMのタスク性能が低下する。
本研究では,Stiefel多様体上のSTE(Straight-Through Estimator)が非滑らか性および勾配雑音を発生させ,最適化収束を阻害し,広範囲な訓練にもかかわらず高忠実度量子化LDM開発をブロックすることを確認する。
上記の制約に対処するため,SingleQuantという単一パス量子化フレームワークを提案する。
特に、SingleQuantは、アクティベーションアウトレーヤを個別にターゲットとしたアライメント回転変換(ART)と均一回転変換(URT)を構築し、ARTはクローズドフォームの最適回転によって外乱値の滑らか化を実現し、URTは幾何学的マッピングによって分布をリサップする。
両行列は、所定の寸法と回転角度で厳密に定式化されたアジェンド回転で構成され、短時間で有望なLLMタスク性能を実現する。
7B-70B LLMの多種多様なタスクにおいて,SingleQuantが選択したベースラインよりも優れていることを示す実験結果を得た。
より正確に言うと、SingleQuantは量子化されたLLMを、量子化に要する時間を減らすことなく、より高いタスク性能を達成することができる。
例えば、LLaMA-2-13Bの量子化では、SingleQuantは1400$\times$量子化スピードアップを達成し、選択された最良ベースラインと比較して平均タスク性能は0.57\%上昇する。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - LLMEasyQuant: Scalable Quantization for Parallel and Distributed LLM Inference [5.216774377033164]
textbfLLMEasyQuantは,大規模言語モデル(LLM)のためのシステム対応量子化フレームワークである。
単一ノードマルチGPU、マルチノード、エッジハードウェア上でのLLMの効率的な低ビット推論のために設計されている。
論文 参考訳(メタデータ) (2024-06-28T04:56:53Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。