論文の概要: SASQ: Static Activation Scaling for Quantization-Aware Training in Large Language Models
- arxiv url: http://arxiv.org/abs/2512.14481v1
- Date: Tue, 16 Dec 2025 15:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.759565
- Title: SASQ: Static Activation Scaling for Quantization-Aware Training in Large Language Models
- Title(参考訳): SASQ:大規模言語モデルにおける量子化学習のための静的アクティベーションスケーリング
- Authors: Shizhuo Mao, Song Chen, Yi Kang,
- Abstract要約: 本稿では,活性化量子化因子に適した軽量QATフレームワークであるSASQを提案する。
LLaMA2-7Bでは、QuaRotよりも5.2%、WikiText2のFP16モデルより4.7%低いパープレキシティを実現している。
- 参考スコア(独自算出の注目度): 6.235887167172886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) excel at natural language tasks but face deployment challenges due to their growing size outpacing GPU memory advancements. Model quantization mitigates this issue by lowering weight and activation precision, but existing solutions face fundamental trade-offs: dynamic quantization incurs high computational overhead and poses deployment challenges on edge devices, while static quantization sacrifices accuracy. Existing approaches of quantization-aware training (QAT) further suffer from weight training costs. We propose SASQ: a lightweight QAT framework specifically tailored for activation quantization factors. SASQ exclusively optimizes only the quantization factors (without changing pre-trained weights), enabling static inference with high accuracy while maintaining deployment efficiency. SASQ adaptively truncates some outliers, thereby reducing the difficulty of quantization while preserving the distributional characteristics of the activations. SASQ not only surpasses existing SOTA quantization schemes but also outperforms the corresponding FP16 models. On LLaMA2-7B, it achieves 5.2% lower perplexity than QuaRot and 4.7% lower perplexity than the FP16 model on WikiText2.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語タスクでは優れていますが、GPUメモリの進歩よりもサイズが大きくなるため、デプロイメントの課題に直面しています。
モデル量子化は重量とアクティベーションの精度を下げることでこの問題を軽減するが、既存のソリューションでは基本的なトレードオフに直面している。
量子化対応トレーニング(QAT)の既存のアプローチは、さらに重量訓練コストに悩まされている。
本稿では,活性化量子化因子に適した軽量QATフレームワークであるSASQを提案する。
SASQは(事前訓練された重みを変更することなく)量子化係数のみを最適化し、デプロイ効率を維持しながら高い精度で静的推論を可能にする。
SASQはいくつかの外れ値を適応的に切り離し、活性化の分布特性を保ちながら量子化の困難さを軽減する。
SASQは既存のSOTA量子化スキームを超えるだけでなく、対応するFP16モデルよりも優れている。
LLaMA2-7Bでは、QuaRotよりも5.2%、WikiText2のFP16モデルより4.7%低いパープレキシティを実現している。
関連論文リスト
- D$^2$Quant: Accurate Low-bit Post-Training Weight Quantization for LLMs [33.883527341335856]
軽量後トレーニング量子化(PTQ)は、メモリ使用量を減らし、低ビット演算子や専用ハードウェアを使わずに実用的なスピードアップを可能にするため、魅力的である。
精度は、重量のみのPTQにおいて、サブ-4ビットの精度で著しく低下する。
D$2$Quantは、ウェイトとアクティベーションの両方の観点から量子化を改善する新しいウェイトオンリーのPTQフレームワークである。
論文 参考訳(メタデータ) (2026-01-30T05:49:48Z) - StableQAT: Stable Quantization-Aware Training at Ultra-Low Bitwidths [49.94623294999562]
量子化対応トレーニング(QAT)は、厳格なメモリとレイテンシの制約の下で大規模モデルをデプロイするために不可欠である。
ストレートスルー推定器(STE)やソフト量子化器に基づく一般的な手法は、しばしばミスマッチ、不安定、高い計算オーバーヘッドに悩まされる。
超低ビット環境でのトレーニングを安定化する統合的で効率的なQATフレームワークであるStableQATを提案する。
論文 参考訳(メタデータ) (2026-01-27T08:00:57Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - LoTA-QAF: Lossless Ternary Adaptation for Quantization-Aware Fine-Tuning [50.89500210372827]
リソース制約のあるエッジデバイスに大規模言語モデル(LLM)をデプロイするには、量子化と微調整が不可欠である。
LoTA-QAFは量子化LDM用に特別に設計された新しい微調整法である。
MMLUベンチマークでは,16ビットLORAを最大5.14%越えて,量子化モデルの性能を効果的に回復する。
論文 参考訳(メタデータ) (2025-05-24T14:47:28Z) - Scaling Law for Quantization-Aware Training [41.782744728992675]
量子化対応トレーニング(QAT)は、性能を維持しながらモデルの精度を低下させる。
既存のQATスケーリング法則は、トレーニングトークンの数や量子化の粒度といった重要な要素を無視している。
本稿では、モデルサイズ、トレーニングデータボリューム、量子化グループサイズの関数として量子化誤差をモデル化するQATの統一スケーリング法則を提案する。
論文 参考訳(メタデータ) (2025-05-20T12:54:43Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - EfQAT: An Efficient Framework for Quantization-Aware Training [20.47826378511535]
量子化対応トレーニング(QAT)スキームは、ほぼ完全な精度を実現することが示されている。
ポストトレーニング量子化(PTQ)スキームはトレーニングを伴わないため、計算的に安価である。
本稿では、量子化モデルのパラメータのサブセットのみを最適化することにより、両方のスキームを一般化するEfQATを提案する。
論文 参考訳(メタデータ) (2024-11-17T11:06:36Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [56.22507677736051]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットに圧縮することで、リソース制約のあるデバイスにデプロイできる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。
正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文 参考訳(メタデータ) (2024-07-14T00:23:51Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合したL4Qを提案する。
メモリ最適化レイヤ設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、トレーニングコストはLoRAに匹敵する。
この量子化法と微調整法の組み合わせにより精度が向上することを示した。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。