論文の概要: Activation Outliers in Transformer Quantization: Reproduction, Statistical Analysis, and Deployment Tradeoffs
- arxiv url: http://arxiv.org/abs/2603.04308v1
- Date: Wed, 04 Mar 2026 17:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.424671
- Title: Activation Outliers in Transformer Quantization: Reproduction, Statistical Analysis, and Deployment Tradeoffs
- Title(参考訳): 変圧器量子化におけるアクティベーションアウトリー:再現、統計解析、展開トレードオフ
- Authors: Pranav Kumar Kaliaperumal,
- Abstract要約: 変圧器のポストトレーニング量子化(PTQ)は、構造化されたアクティベーションアウトリアによる精度の低下に悩まされていることが知られている。
本稿では,QNLIで微調整されたBERTベースにおける再現可能な経験的再現と,その現象のシステムレベルの拡張について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) of transformers is known to suffer from severe accuracy degradation due to structured activation outliers, as originally analyzed by Bondarenko et al. (EMNLP 2021) in work associated with Qualcomm AI Research. This paper provides a reproducible empirical reproduction and systems-level extension of that phenomenon in BERT-base fine-tuned on QNLI. When global W8A8 quantization is applied, validation accuracy drops sharply from 89.66% (FP32) to 54.33%, a decrease of 35.33 points. Statistical analysis of FP32 activations shows strongly heavy-tailed behavior that intensifies with model depth: kurtosis reaches 271 in the final layers and approximately 55% of activation energy is concentrated in the top 1% of channels. We evaluate several mitigation strategies. Mixed precision PTQ restores accuracy close to the FP32 baseline (89.42%). Per-embedding-group (PEG) quantization shows strong sensitivity to grouping structure, improving accuracy from 66.12% with three groups to 86.18% with four groups. In contrast, percentile-based calibration, even at thresholds between 99.0 and 99.99, fails to recover accuracy (about 50.54%), indicating that large activation channels encode structured signal rather than rare noise. Deployment profiling on an RTX 3050 GPU shows minimal differences in latency and memory usage across methods (median latency about 58-59 ms; VRAM usage about 484-486 MB), highlighting the importance of hardware-aware evaluation. Overall, the results show that PTQ failure in transformers is primarily driven by structured channel dominance amplified through residual connections. Effective mitigation therefore requires channel-aware precision allocation rather than scalar clipping alone.
- Abstract(参考訳): 変換器のポストトレーニング量子化(PTQ)は、Qualcomm AI Researchに関連する作業において、ボンダレンコら(EMNLP 2021)が分析したように、構造化されたアクティベーション異常による深刻な精度低下に悩まされていることが知られている。
本稿では,QNLIで微調整されたBERTベースにおける再現可能な経験的再現と,その現象のシステムレベルの拡張について述べる。
グローバルなW8A8量子化を適用すると、検証精度は89.66%(FP32)から54.33%に急落し、35.33ポイントが減少する。
FP32の活性化の統計的分析は、モデル深度で強く重く、最終層で271層に達し、活性化エネルギーの約55%がチャネルの上位1%に集中している。
我々はいくつかの緩和戦略を評価する。
混合精度PTQはFP32ベースライン(89.42%)に近い精度を復元する。
PEG(per-embedding-group)量子化は、グループ構造に対する強い感度を示し、3つのグループで66.12%から4つのグループで86.18%に精度を向上する。
対照的に、99.0から99.99の間でもパーセンタイルベースのキャリブレーションは精度の回復に失敗し(約50.54%)、大きなアクティベーションチャネルがレアノイズではなく構造化信号を符号化していることを示している。
RTX 3050 GPUへのデプロイプロファイリングでは、メソッド間でのレイテンシとメモリ使用率の差が最小限である(中央遅延は58-59 ms、VRAMは484-486 MB)。
以上の結果から, 変圧器のPTQ故障は, 残差接続によって増幅されたチャネル優位性によって主に引き起こされることが明らかとなった。
したがって、効果的な緩和には、スカラークリッピング単独ではなく、チャネル認識の精度の確保が必要である。
関連論文リスト
- Distributional Reinforcement Learning with Information Bottleneck for Uncertainty-Aware DRAM Equalization [8.695939803795499]
本稿では,Information Bottleneck潜在表現と条件付き値-アット・リスク最適化を組み合わせた分散型リスク感応型強化学習フレームワークを提案する。
本稿では,眼球図の51倍の速度アップを実現する速度歪み最適信号圧縮法を提案する。
提案するフレームワークは,検証済みの最悪の保証を伴って,生産規模の等化器最適化のための実用的なソリューションを提供することを示す。
論文 参考訳(メタデータ) (2026-03-05T03:34:25Z) - Dissecting Outlier Dynamics in LLM NVFP4 Pretraining [46.10969678564592]
本研究は,NVFP4プレトレーニング中におけるアーキテクチャ内外層力学の経時的解析を行う。
我々は、Softmax Attention (SA) と比較して、Linear Attention (LA) はテンソルあたりの重みを減少させるが、ブロック量子化の下ではブロックレベルのスパイクが持続することを示した。
次に,NVFP4のトレーニングレシピであるCHONを開発し,QK後の操作保護と統合した。
論文 参考訳(メタデータ) (2026-02-02T12:50:27Z) - Understanding vision transformer robustness through the lens of out-of-distribution detection [59.72757235382676]
量子化はメモリと推論コストを削減し、性能損失のリスクを負う。
本稿では, 量子化小型可変ビジョントランス (DeiT, DeiT3, ViT) の共通アウト・オブ・ディストリビューション (OOD) データセットにおける挙動について検討する。
論文 参考訳(メタデータ) (2026-02-01T22:00:59Z) - Uncertainty Makes It Stable: Curiosity-Driven Quantized Mixture-of-Experts [6.221156050218661]
本稿では、資源制約のあるデバイス上でのディープニューラルネットワークのための好奇心駆動型量子化混合処理フレームワークを提案する。
われわれの4ビット量子化は、16ビットの精度(0.858対0.859 F1)の99.9%を維持し、4倍の圧縮と41%の省エネを実現している。
我々の情報理論的ルーティングは、適応量子化が精度(0.858 F1, 1.2M params)、エネルギー効率(3.87 F1/mJ)、予測可能なエッジモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2025-11-13T15:32:41Z) - Feature Selection and Regularization in Multi-Class Classification: An Empirical Study of One-vs-Rest Logistic Regression with Gradient Descent Optimization and L1 Sparsity Constraints [0.0]
マルチクラスのワイン分類は、モデル精度、特徴次元、解釈可能性の基本的なトレードオフを示す。
本稿では,UCIワインデータセット上での1-vs-Restロジスティック回帰に関する総合的研究について述べる。
論文 参考訳(メタデータ) (2025-10-16T08:47:05Z) - To Compress or Not? Pushing the Frontier of Lossless GenAI Model Weights Compression with Exponent Concentration [46.63567524455431]
低精度浮動小数点フォーマットは、遅延化オーバーヘッドを伴わずに安定性、メモリ節約、ハードウェア効率を提供する。
本稿では,エントロピー対応エンコーディングとGPU最適化デコーディングを備えた圧縮フレームワークであるExponent-Concentrated FP8(ECF8)を提案する。
LLMとDiTの最大671Bパラメータの実験では、最大26.9%のメモリ節約と177.1%のスループット加速が示されている。
論文 参考訳(メタデータ) (2025-10-03T02:22:13Z) - APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers [71.2294205496784]
平均摂動ヘシアン (APH) を用いた重要度推定に基づく新しいPTQ手法である textbfAPHQ-ViT を提案する。
本稿では,線形量子化器を用いたAPHQ-ViTが既存のPTQ法よりも3ビット,4ビットの差が大きいことを示す。
論文 参考訳(メタデータ) (2025-04-03T11:48:56Z) - Intelligent Fault Diagnosis of Type and Severity in Low-Frequency, Low Bit-Depth Signals [0.6144680854063939]
この研究は、高パフォーマンスと低リソース消費のバランスをとることを目的として、不均衡なMaFaulDaデータセットの音声データを活用する。
精度は99.54%、F-Betaスコアは99.52%で、わずか6本の隆起木が8kHz、8ビット構成であった。
論文 参考訳(メタデータ) (2024-11-09T22:01:11Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - Accurate and Reliable Predictions with Mutual-Transport Ensemble [46.368395985214875]
Kullback-Leibler (KL) を用いた共学習補助モデルの提案とクロスエントロピー損失の適応的正則化
MTEは精度と不確実性の両方を同時に向上させることができる。
例えば、CIFAR-100データセットでは、我々のResNet34/50上のMTEメソッドは、従来の最先端の手法に比べて大幅に改善された。
論文 参考訳(メタデータ) (2024-05-30T03:15:59Z) - QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven
Fine Tuning [16.50084447690437]
この研究は、これらの精度低下の原因を明らかにし、量子化フレンドリな微調整法である textbfQuantTune を提案している。
提案手法は, ViT, Bert-base, OPT など,トランスフォーマーベースモデルにおけるポストトレーニング量子化の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-03-11T08:09:30Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。