論文の概要: LATMiX: Learnable Affine Transformations for Microscaling Quantization of LLMs
- arxiv url: http://arxiv.org/abs/2602.17681v1
- Date: Wed, 04 Feb 2026 15:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.510766
- Title: LATMiX: Learnable Affine Transformations for Microscaling Quantization of LLMs
- Title(参考訳): LATMiX:LLMのマイクロスケーリング量子化のための学習可能なアフィン変換
- Authors: Ofir Gordon, Lior Dikstein, Arnon Netzer, Idan Achituve, Hai Victor Habi,
- Abstract要約: 可逆変換をアクティベーションに適用することで、量子化を大幅に改善することができる。
現代のハードウェアは、マイクロスケーリング(MX)データフォーマットをますますサポートしている。
学習可能な非可逆アフィン変換への外乱還元を一般化する手法である LATMiX を提案する。
- 参考スコア(独自算出の注目度): 11.773543873657752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) is a widely used approach for reducing the memory and compute costs of large language models (LLMs). Recent studies have shown that applying invertible transformations to activations can significantly improve quantization robustness by reducing activation outliers; however, existing approaches are largely restricted to rotation or Hadamard-based transformations. Moreover, most studies focused primarily on traditional quantization schemes, whereas modern hardware increasingly supports the microscaling (MX) data format. Attempts to combine both showed severe performance degradation, leading prior work to introduce assumptions on the transformations. In this work, we take a complementary perspective. First, we provide a theoretical analysis of transformations under MX quantization by deriving a bound on the quantization error. Our analysis emphasizes the importance of accounting for both the activation distribution and the underlying quantization structure. Building on this analysis, we propose LATMiX, a method that generalizes outlier reduction to learnable invertible affine transformations optimized using standard deep learning tools. Experiments show consistent improvements in average accuracy for MX low-bit quantization over strong baselines on a wide range of zero-shot benchmarks, across multiple model sizes.
- Abstract(参考訳): 後学習量子化(PTQ)は、大規模言語モデル(LLM)のメモリと計算コストを削減するために広く用いられている手法である。
近年の研究では、アクティベーションに可逆変換を適用することで、アクティベーションアウトリージを減らすことで量子化ロバスト性を大幅に向上することが示されているが、既存のアプローチはローテーションやアダマールベースの変換に大きく制限されている。
さらに、ほとんどの研究は従来の量子化方式に重点を置いているが、現代のハードウェアはマイクロスケーリング(MX)データフォーマットをますますサポートしている。
両方を組み合わせようという試みは、大きなパフォーマンス劣化を示し、前回の作業では、変換に関する仮定を導入しました。
この研究では、補完的な視点を取ります。
まず、MX量子化の下での変換の理論的解析について、量子化誤差のバウンダリを導出する。
本分析では,活性化分布と基礎となる量子化構造の両方を考慮することの重要性を強調した。
この分析に基づいて,標準のディープラーニングツールを用いて最適化された学習可能な非可逆アフィン変換への外乱削減を一般化する手法である LATMiX を提案する。
実験により、複数のモデルサイズにわたる広範囲のゼロショットベンチマークにおいて、強力なベースライン上でのMX低ビット量子化の平均精度が一貫した改善を示した。
関連論文リスト
- WUSH: Near-Optimal Adaptive Transforms for LLM Quantization [52.77441224845925]
低ビット幅への量子化は、大きな言語モデルをデプロイするための標準的なアプローチである。
いくつかの極端な重みと活性化は、ダイナミックレンジを拡張し、量子化器の有効分解能を減少させる。
結合重みアクティベーション量子化のための閉形式最適線形ブロックワイズ変換を初めて導出する。
論文 参考訳(メタデータ) (2025-11-30T16:17:34Z) - STaMP: Sequence Transformation and Mixed Precision for Low-Precision Activation Quantization [21.93314755695813]
量子化は、生成AIモデルの推論レイテンシ、電力、メモリフットプリントを低減するための重要な方法である。
テキストシーケンス変換と混合精度(STaMP)量子化を提案する。
論文 参考訳(メタデータ) (2025-10-30T17:53:42Z) - Mixed-Precision Quantization for Language Models: Techniques and Prospects [10.345914140081925]
量子化は、モデルサイズを減らし、メモリボトルネックを緩和し、推論を加速する重要な圧縮技術として登場した。
混合精度量子化は、効率と精度のバランスをとるために、層またはテンソル内で精度を選択的に割り振ることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-19T12:16:40Z) - A Comprehensive Evaluation on Quantization Techniques for Large Language Models [46.75040730001041]
後学習量子化(PTQ)は、大規模言語モデル(LLM)のメモリフットプリントと計算オーバーヘッドを大幅に削減する。
我々は、最先端の手法を幅広く検討し、同じ条件下で総合的な評価を行い、公正な比較を行う。
最新のMXFP4およびNVFP4データフォーマットとその性能評価を行った。
論文 参考訳(メタデータ) (2025-07-23T11:21:21Z) - FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations [17.975720202894905]
ポストトレーニング量子化(PTQ)は,行列演算のビット幅を削減することで,有望な解を提供する。
本稿では,チャネル活性化の正規化とアダマール変換の適用により,既存手法を拡張した新しい線形変換法HadaNormを提案する。
我々は,HadaNormが変圧器ブロックの様々な構成成分の量子化誤差を一貫して低減し,最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2025-06-11T16:54:34Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - QT-DoG: Quantization-aware Training for Domain Generalization [58.439816306817306]
領域一般化のための量子化アウェアトレーニング(QT-DoG)を提案する。
我々は、減量量化が損失景観におけるより平坦なミニマムを効果的に導くことを実証した。
QT-DoGは、モデル重みのノイズを誘導することで暗黙の正則化器として量子化を利用する。
論文 参考訳(メタデータ) (2024-10-08T13:21:48Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。