論文の概要: STaMP: Sequence Transformation and Mixed Precision for Low-Precision Activation Quantization
- arxiv url: http://arxiv.org/abs/2510.26771v1
- Date: Thu, 30 Oct 2025 17:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.95866
- Title: STaMP: Sequence Transformation and Mixed Precision for Low-Precision Activation Quantization
- Title(参考訳): STaMP:低精度アクティベーション量子化のためのシーケンス変換と混合精度
- Authors: Marco Federici, Riccardo Del Chiaro, Boris van Breugel, Paul Whatmough, Markus Nagel,
- Abstract要約: 量子化は、生成AIモデルの推論レイテンシ、電力、メモリフットプリントを低減するための重要な方法である。
テキストシーケンス変換と混合精度(STaMP)量子化を提案する。
- 参考スコア(独自算出の注目度): 21.93314755695813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization is the key method for reducing inference latency, power and memory footprint of generative AI models. However, accuracy often degrades sharply when activations are quantized below eight bits. Recent work suggests that invertible linear transformations (e.g. rotations) can aid quantization, by reparameterizing feature channels and weights. In this paper, we propose \textit{Sequence Transformation and Mixed Precision} (STaMP) quantization, a novel strategy that applies linear transformations along the \textit{sequence} dimension to exploit the strong local correlation in language and visual data. By keeping a small number of tokens in each intermediate activation at higher precision, we can maintain model accuracy at lower (average) activations bit-widths. We evaluate STaMP on recent LVM and LLM architectures, demonstrating that it significantly improves low bit width activation quantization and complements established activation and weight quantization methods including recent feature transformations.
- Abstract(参考訳): 量子化は、生成AIモデルの推論レイテンシ、電力、メモリフットプリントを低減するための重要な方法である。
しかし、アクティベーションが8ビット以下に量子化されると、精度はしばしば急激に低下する。
最近の研究は、特徴チャネルと重みを再パラメータ化することによって、可逆線型変換(eg回転)が量子化に役立つことを示唆している。
本稿では,言語と視覚データの強い局所的相関を活かすために,<textit{Sequence Transformation and Mixed Precision} (STaMP) 量子化法を提案する。
各中間アクティベーションに少数のトークンを高い精度で保持することにより、ビット幅の低い(平均)アクティベーションでモデルの精度を維持することができる。
近年のLVMおよびLLMアーキテクチャ上でSTaMPを評価し、低ビット幅の活性化量子化を著しく改善し、最近の特徴変換を含む確立された活性化および重み量子化手法を補完することを示した。
関連論文リスト
- Mixed-Precision Quantization for Language Models: Techniques and Prospects [10.345914140081925]
量子化は、モデルサイズを減らし、メモリボトルネックを緩和し、推論を加速する重要な圧縮技術として登場した。
混合精度量子化は、効率と精度のバランスをとるために、層またはテンソル内で精度を選択的に割り振ることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-19T12:16:40Z) - HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations [17.975720202894905]
ポストトレーニング量子化(PTQ)は,行列演算のビット幅を削減することで,有望な解を提供する。
本稿では,チャネル活性化の正規化とアダマール変換の適用により,既存手法を拡張した新しい線形変換法HadaNormを提案する。
我々は,HadaNormが変圧器ブロックの様々な構成成分の量子化誤差を一貫して低減し,最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2025-06-11T16:54:34Z) - OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting [20.944120156871108]
後学習量子化(PTQ)は、Large Language Models(LLMs)の圧縮・加速技術として広く採用されている。
LLM量子化における大きな課題は、不均一で重み付きデータ分布が量子化範囲を拡大し、ほとんどの値のビット精度を低下させることである。
本稿では、量子化空間におけるデータの空間利用率を測定することにより、変換データの量子化性を効果的に評価する新しい指標である量子化空間利用率(BrotherQSUR)を紹介する。
論文 参考訳(メタデータ) (2025-01-23T08:24:25Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。