論文の概要: SASQ: Static Activation Scaling for Quantization-Aware Training in Large Language Models
- arxiv url: http://arxiv.org/abs/2512.14481v1
- Date: Tue, 16 Dec 2025 15:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.759565
- Title: SASQ: Static Activation Scaling for Quantization-Aware Training in Large Language Models
- Title(参考訳): SASQ:大規模言語モデルにおける量子化学習のための静的アクティベーションスケーリング
- Authors: Shizhuo Mao, Song Chen, Yi Kang,
- Abstract要約: 本稿では,活性化量子化因子に適した軽量QATフレームワークであるSASQを提案する。
LLaMA2-7Bでは、QuaRotよりも5.2%、WikiText2のFP16モデルより4.7%低いパープレキシティを実現している。
- 参考スコア(独自算出の注目度): 6.235887167172886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at natural language tasks but face deployment challenges due to their growing size outpacing GPU memory advancements. Model quantization mitigates this issue by lowering weight and activation precision, but existing solutions face fundamental trade-offs: dynamic quantization incurs high computational overhead and poses deployment challenges on edge devices, while static quantization sacrifices accuracy. Existing approaches of quantization-aware training (QAT) further suffer from weight training costs. We propose SASQ: a lightweight QAT framework specifically tailored for activation quantization factors. SASQ exclusively optimizes only the quantization factors (without changing pre-trained weights), enabling static inference with high accuracy while maintaining deployment efficiency. SASQ adaptively truncates some outliers, thereby reducing the difficulty of quantization while preserving the distributional characteristics of the activations. SASQ not only surpasses existing SOTA quantization schemes but also outperforms the corresponding FP16 models. On LLaMA2-7B, it achieves 5.2% lower perplexity than QuaRot and 4.7% lower perplexity than the FP16 model on WikiText2.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語タスクでは優れていますが、GPUメモリの進歩よりもサイズが大きくなるため、デプロイメントの課題に直面しています。
モデル量子化は重量とアクティベーションの精度を下げることでこの問題を軽減するが、既存のソリューションでは基本的なトレードオフに直面している。
量子化対応トレーニング(QAT)の既存のアプローチは、さらに重量訓練コストに悩まされている。
本稿では,活性化量子化因子に適した軽量QATフレームワークであるSASQを提案する。
SASQは(事前訓練された重みを変更することなく)量子化係数のみを最適化し、デプロイ効率を維持しながら高い精度で静的推論を可能にする。
SASQはいくつかの外れ値を適応的に切り離し、活性化の分布特性を保ちながら量子化の困難さを軽減する。
SASQは既存のSOTA量子化スキームを超えるだけでなく、対応するFP16モデルよりも優れている。
LLaMA2-7Bでは、QuaRotよりも5.2%、WikiText2のFP16モデルより4.7%低いパープレキシティを実現している。
関連論文リスト
- End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - LoTA-QAF: Lossless Ternary Adaptation for Quantization-Aware Fine-Tuning [50.89500210372827]
リソース制約のあるエッジデバイスに大規模言語モデル(LLM)をデプロイするには、量子化と微調整が不可欠である。
LoTA-QAFは量子化LDM用に特別に設計された新しい微調整法である。
MMLUベンチマークでは,16ビットLORAを最大5.14%越えて,量子化モデルの性能を効果的に回復する。
論文 参考訳(メタデータ) (2025-05-24T14:47:28Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [56.22507677736051]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットに圧縮することで、リソース制約のあるデバイスにデプロイできる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。
正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文 参考訳(メタデータ) (2024-07-14T00:23:51Z) - L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合したL4Qを提案する。
メモリ最適化レイヤ設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、トレーニングコストはLoRAに匹敵する。
この量子化法と微調整法の組み合わせにより精度が向上することを示した。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。