論文の概要: Astro: Activation-guided Structured Regularization for Outlier-Robust LLM Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2602.07596v1
- Date: Sat, 07 Feb 2026 15:50:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.715178
- Title: Astro: Activation-guided Structured Regularization for Outlier-Robust LLM Post-Training Quantization
- Title(参考訳): Astro: Activation-Guided Structured Regularization for Outlier-Robust LLM after-Training Quantization
- Authors: Xi Chen, Ming Li, Junxi Li, Changsheng Li, Peisong Wang, Lizhong Ding, Ye Yuan, Guoren Wang,
- Abstract要約: 本稿では, アクティベーション誘導型構造正規化フレームワークを提案する。
Astroは内在的に頑丈な重量を積極的に再構成し、高マグニチュードの活性化に対応する重量の降圧を積極的に抑制する。
Astroは競争力が高く、特にLLaMA-2-7Bでは、量子化時間の1/3近くを持つ複雑な学習ベースの回転法よりも優れた性能を達成している。
- 参考スコア(独自算出の注目度): 56.5199302532159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight-only post-training quantization (PTQ) is crucial for efficient Large Language Model (LLM) deployment but suffers from accuracy degradation caused by weight and activation outliers. Existing mitigation strategies often face critical limitations: they either yield insufficient outlier suppression or incur significant deployment inefficiencies, such as inference latency, heavy preprocessing, or reliance on complex operator fusion. To resolve these limitations, we leverage a key insight: over-parameterized LLMs often converge to Flat Minima, implying a vast equivalent solution space where weights can be adjusted without compromising accuracy. Building on this, we propose Astro, an Activation-guided Structured Regularization framework designed to suppress the negative effects of outliers in a hardware-friendly and efficient manner. Leveraging the activation-guided regularization objective, Astro actively reconstructs intrinsically robust weights, aggressively suppressing weight outliers corresponding to high-magnitude activations without sacrificing model accuracy. Crucially, Astro introduces zero inference latency and is orthogonal to mainstream quantization methods like GPTQ. Extensive experiments show that Astro achieves highly competitive performance; notably, on LLaMA-2-7B, it achieves better performance than complex learning-based rotation methods with almost 1/3 of the quantization time.
- Abstract(参考訳): 重みのみのポストトレーニング量子化(PTQ)は、LLM(Large Language Model)の効率的な展開には不可欠であるが、重みとアクティベーションアウトリーによる精度低下に悩まされている。
既存の緩和戦略は、しばしば致命的な制限に直面している。それらは、不整合抑制を生じるか、推論遅延、重い前処理、複雑な演算子融合への依存のような、重大な配置不効率を引き起こす。
過度にパラメータ化されたLLMは、しばしばフラット・ミニマに収束し、重みを精度を損なうことなく調整できる膨大な等価な解空間を示唆する。
そこで本研究では,アクティベーション誘導型構造化正規化フレームワークであるAstroを提案する。
アクティベーション誘導正規化の目的を生かし、アストロは本質的に頑丈な重量を積極的に再構成し、モデル精度を犠牲にすることなく、高マグニチュードアクティベーションに対応する重量流出率を積極的に抑制した。
重要なことに、Astroはゼロ推論レイテンシを導入し、GPTQのような主流量子化手法と直交している。
特にLLaMA-2-7Bでは、量子化時間の1/3近くを持つ複雑な学習ベースの回転法よりも優れた性能を達成している。
関連論文リスト
- PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Taming Sensitive Weights : Noise Perturbation Fine-tuning for Robust LLM Quantization [5.718172547021947]
量子化誤差に対する感度重みの影響を抑えるため,NPFT(Noth Perturbation Fine-tuning)を提案する。
NPFTは、外周重量を同定し、外周重量のランダムな摂動を、PEFT最適化によるモデルとして追加する。
OPTおよびLLaMAモデルに適用すると、NPFT法は均一および非一様量子化器の安定な性能向上を実現する。
論文 参考訳(メタデータ) (2024-12-08T21:46:22Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化は、リソース制約のあるデバイスに大規模言語モデルをデプロイするための有望なソリューションである。
層間依存関係を考慮し、量子化重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T11:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。