論文の概要: LoaQ: Layer-wise Output Approximation Quantization
- arxiv url: http://arxiv.org/abs/2509.06297v1
- Date: Mon, 08 Sep 2025 02:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.948369
- Title: LoaQ: Layer-wise Output Approximation Quantization
- Title(参考訳): LoaQ: レイヤワイド出力近似量子化
- Authors: Li Lin, Xiaojun Wan,
- Abstract要約: モデル量子化の自然な考え方は、各成分の量子化された出力を元の値に一致するように近似することである。
レイヤーワイズ・ポストトレーニング量子化(PTQ)は、せいぜい、重量の活性化を意識した近似しか達成できない。
出力レベルの整合性を明示する層ワイドPTQの出力近似法である$LoaQ$を提案する。
- 参考スコア(独自算出の注目度): 40.425536766574844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A natural and intuitive idea in model quantization is to approximate each component's quantized output to match its original. Layer-wise post-training quantization (PTQ), though based on this idea, adopts a strictly local view and can achieve, at best, only activation-aware approximations of weights. As a result, it often leads to insufficient approximations and practical deviations from this guiding intuition. Recent work has achieved a more accurate approximation of linear-layer outputs within the framework of layer-wise PTQ, but such refinements remain inadequate for achieving alignment with the full model output. Based on a deeper understanding of the structural characteristics of mainstream LLMs, we propose $LoaQ$, an output-approximation method for layer-wise PTQ that explicitly targets output-level consistency. It better aligns with this intuition and can feature a simple closed-form solution, making it orthogonal to existing techniques and readily integrable into existing quantization pipelines. Experiments on the LLaMA and Qwen model families demonstrate that LoaQ performs effectively in both weight-only and weight-activation joint quantization. By integrating seamlessly with existing quantization strategies, it further enhances overall quantization quality and shows strong potential to advance the frontier of post-training quantization.
- Abstract(参考訳): モデル量子化における自然で直感的な考え方は、各成分の量子化出力を元の値と一致するように近似することである。
レイヤーワイズ・ポストトレーニング量子化(PTQ)は、この考え方に基づいているが、厳密に局所的な視点を採用し、少なくとも、重量の活性化を意識した近似しか達成できない。
その結果、しばしばこの指導的直観から不十分な近似と実践的な逸脱につながる。
最近の研究は、層ワイドPTQの枠組み内での線形層出力のより正確な近似を実現しているが、完全なモデル出力との整合性を達成するには、そのような改善は不十分である。
そこで本研究では,LLMの構造的特性のより深い理解に基づいて,出力レベルの整合性を明示するレイヤワイドPTQの出力近似法である$LoaQ$を提案する。
この直感と整合し、単純なクローズドフォームのソリューションを特徴とし、既存の技術と直交し、容易に既存の量子化パイプラインに統合できる。
LLaMAおよびQwenモデルファミリーの実験では、LoaQは重量のみおよび重量活性化ジョイント量子化の両方で効果的に機能することを示した。
既存の量子化戦略とシームレスに統合することにより、全体的な量子化品質をさらに向上し、ポストトレーニング量子化のフロンティアを前進させる強いポテンシャルを示す。
関連論文リスト
- ZeroQAT: Your Quantization-aware Training but Efficient [53.25965863436039]
量子化は、大規模言語モデル(LLM)のデプロイメントコストを削減する効果的な手法である。
既存の低ビットPTQ法は, 局所再構成目標と下流性能の相違による累積誤差の伝搬と誤調整が生じるため, 精度劣化に悩まされる。
我々は,ゼロオーダー最適化に基づくQATフレームワークZeroQATを提案する。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization [0.0]
層ワイドPTQは大規模言語モデル(LLM)を圧縮するための有望な手法である
この領域の最近の進歩は飽和しており、中核的な制限を再検討し、さらなる改善を検討する必要性を浮き彫りにしている。
本稿では,量子化エラーを明示的に伝播し,蓄積したエラーを補償することにより,レイヤワイズPTQを向上させる,汎用的で軽量でスケーラブルなフレームワークである量子化エラー伝播(QEP)を提案する。
論文 参考訳(メタデータ) (2025-04-13T15:56:00Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - PB-LLM: Partially Binarized Large Language Models [14.244537605866864]
本稿では,Large Language Models (LLMs) 圧縮のために,モデル重みを1ビットに圧縮するネットワークバイナライゼーションについて検討する。
本稿では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partial-Binarized LLM)を提案する。
論文 参考訳(メタデータ) (2023-09-29T14:35:27Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - QFT: Post-training quantization via fast joint finetuning of all degrees
of freedom [1.1744028458220428]
我々は、すべての量子化DoFの統一的な分析に向けて、HWを意識した方法で量子化ネットワークパラメータ化を再考する。
本手法はQFT(quantization-aware finetuning)と呼ばれ,SoTAと同等の4ビット重み量子化結果が得られる。
論文 参考訳(メタデータ) (2022-12-05T22:38:58Z) - Nonuniform-to-Uniform Quantization: Towards Accurate Quantization via
Generalized Straight-Through Estimation [48.838691414561694]
非一様量子化(英: Nonuniform-to-Uniform Quantization、N2UQ)は、ハードウェアフレンドリーで効率的な非一様法の強力な表現能力を維持できる方法である。
N2UQはImageNet上で最先端の非一様量子化法を0.71.8%上回る。
論文 参考訳(メタデータ) (2021-11-29T18:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。