論文の概要: S2D: Selective Spectral Decay for Quantization-Friendly Conditioning of Neural Activations
- arxiv url: http://arxiv.org/abs/2602.14432v1
- Date: Mon, 16 Feb 2026 03:41:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.061087
- Title: S2D: Selective Spectral Decay for Quantization-Friendly Conditioning of Neural Activations
- Title(参考訳): S2D:ニューラルアクティベーションの量子化フレンドリーコンディショニングのための選択的スペクトル減衰
- Authors: Arnav Chavan, Nahush Lele, Udbhav Bamba, Sankalp Dayal, Aditi Raghunathan, Deepak Gupta,
- Abstract要約: 大規模変圧器モデルにおける活性化アウトレイアは、量子化をモデル化するための根本的な課題である。
本稿では,最大特異値に対応する重量成分のみを外科的に正規化する幾何学的条件付け法であるS2D$(Selective Spectral Decay)を提案する。
我々は、S2D$がアクティベーションアウトリーを著しく減らし、本質的に量子化に親しみやすい条件付き表現を生成することを示した。
- 参考スコア(独自算出の注目度): 30.145244497712792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Activation outliers in large-scale transformer models pose a fundamental challenge to model quantization, creating excessively large ranges that cause severe accuracy drops during quantization. We empirically observe that outlier severity intensifies with pre-training scale (e.g., progressing from CLIP to the more extensively trained SigLIP and SigLIP2). Through theoretical analysis as well as empirical correlation studies, we establish the direct link between these activation outliers and dominant singular values of the weights. Building on this insight, we propose Selective Spectral Decay ($S^2D$), a geometrically-principled conditioning method that surgically regularizes only the weight components corresponding to the largest singular values during fine-tuning. Through extensive experiments, we demonstrate that $S^2D$ significantly reduces activation outliers and produces well-conditioned representations that are inherently quantization-friendly. Models trained with $S^2D$ achieve up to 7% improved PTQ accuracy on ImageNet under W4A4 quantization and 4% gains when combined with QAT. These improvements also generalize across downstream tasks and vision-language models, enabling the scaling of increasingly large and rigorously trained models without sacrificing deployment efficiency.
- Abstract(参考訳): 大規模トランスモデルのアクティベーションアウトレイアは、量子化をモデル化する上で根本的な課題となり、量子化の過程で深刻な精度低下を引き起こす過度に大きな範囲を創出する。
より広範囲に訓練されたSigLIPとSigLIP2に進行したCLIPは,外乱重大度がトレーニング前の尺度(例:CLIPからSigLIP2)で増大するのを実証的に観察した。
理論的解析と経験的相関研究を通じて、これらのアクティベーション・アウトリアと重みの優占特異値との直接的なリンクを確立する。
この知見に基づいて, 微調整時の最大特異値に対応する重量成分のみを外科的に正規化する幾何学的条件付け法である選択スペクトル決定法(S^2D$)を提案する。
広範な実験を通して、$S^2D$はアクティベーションアウトリーを著しく減らし、本質的に量子化に親しみやすい良条件表現を生成することを示した。
S^2D$でトレーニングされたモデルは、W4A4量子化の下でImageNetのPTQ精度を最大7%改善し、QATと組み合わせると4%向上した。
これらの改善は、下流のタスクやビジョン言語モデルにまたがって一般化され、デプロイ効率を犠牲にすることなく、大規模で厳格に訓練されたモデルのスケーリングを可能にします。
関連論文リスト
- Astro: Activation-guided Structured Regularization for Outlier-Robust LLM Post-Training Quantization [56.5199302532159]
本稿では, アクティベーション誘導型構造正規化フレームワークを提案する。
Astroは内在的に頑丈な重量を積極的に再構成し、高マグニチュードの活性化に対応する重量の降圧を積極的に抑制する。
Astroは競争力が高く、特にLLaMA-2-7Bでは、量子化時間の1/3近くを持つ複雑な学習ベースの回転法よりも優れた性能を達成している。
論文 参考訳(メタデータ) (2026-02-07T15:50:18Z) - D$^2$Quant: Accurate Low-bit Post-Training Weight Quantization for LLMs [33.883527341335856]
軽量後トレーニング量子化(PTQ)は、メモリ使用量を減らし、低ビット演算子や専用ハードウェアを使わずに実用的なスピードアップを可能にするため、魅力的である。
精度は、重量のみのPTQにおいて、サブ-4ビットの精度で著しく低下する。
D$2$Quantは、ウェイトとアクティベーションの両方の観点から量子化を改善する新しいウェイトオンリーのPTQフレームワークである。
論文 参考訳(メタデータ) (2026-01-30T05:49:48Z) - Extreme Model Compression with Structured Sparsity at Low Precision [10.976782748075067]
ディープニューラルネットワーク(DNN)は多くのアプリケーションで使用されているが、その大きなサイズと高い計算コストにより、限られたリソースを持つデバイス上での動作が困難になる。
この課題に対処するために広く使われている2つの手法は、重量量子化(英語版)であり、これは全ての重量の精度を下げるものであり、構造的空間性(英語版)は重要でない重量を除去し、重要な重量を完全精度で保持する。
低精度のSLOPE構造空間を統一的なフレームワークとして導入し、構造化された空間空間と低ビット量子化を原理的に効果的に組み合わせる。
論文 参考訳(メタデータ) (2025-11-11T15:37:55Z) - Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - Improving Quantization with Post-Training Model Expansion [1.6118059133556246]
本研究では,事前学習した大規模言語モデルのサイズを選択的に拡張し,エンドツーエンドの再学習を伴わずにモデル品質を向上できることを示す。
特に、Llama3 1Bの重みとアクティベーションを4ビットに定量すると、完全精度のパープレキシティへのギャップを平均9%削減する。
論文 参考訳(メタデータ) (2025-03-21T19:56:59Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [56.22507677736051]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットに圧縮することで、リソース制約のあるデバイスにデプロイできる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。