論文の概要: MixQuant: Pushing the Limits of Block Rotations in Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2601.22347v1
- Date: Thu, 29 Jan 2026 21:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.083843
- Title: MixQuant: Pushing the Limits of Block Rotations in Post-Training Quantization
- Title(参考訳): MixQuant: ポストトレーニング量子化におけるブロック回転の限界を押し上げる
- Authors: Sai Sanjeet, Ian Colbert, Pablo Monteagudo-Lago, Giuseppe Franco, Yaman Umuroglu, Nicholas J. Fraser,
- Abstract要約: 近年の学習後量子化法では, ラウンド前に外周を拡散させるブロック回転が採用されている。
本稿では,ブロックアダマール回転に対する外乱抑制の最初の系統的非漸近解析について述べる。
ブロックローテーションを意識したPTQフレームワークであるMixQuantを導入する。
- 参考スコア(独自算出の注目度): 2.1414009142536736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent post-training quantization (PTQ) methods have adopted block rotations to diffuse outliers prior to rounding. While this reduces the overhead of full-vector rotations, the effect of block structure on outlier suppression remains poorly understood. To fill this gap, we present the first systematic, non-asymptotic analysis of outlier suppression for block Hadamard rotations. Our analysis reveals that outlier suppression is fundamentally limited by the geometry of the input vector. In particular, post-rotation outliers are deterministically minimized when the pre-rotation $\ell_1$ norm mass is evenly distributed across blocks. Guided by these insights, we introduce MixQuant, a block rotation-aware PTQ framework that redistributes activation mass via permutations prior to rotation. We propose a greedy mass diffusion algorithm to calibrate permutations by equalizing the expected blockwise $\ell_1$ norms. To avoid adding inference overhead, we identify permutation-equivariant regions in transformer architectures to merge the resulting permutations into model weights before deployment. Experiments show that MixQuant consistently improves accuracy across all block sizes, recovering up to 90% of the full-vector rotation perplexity when quantizing Llama3 1B to INT4 with block size 16, compared to 46% without permutations.
- Abstract(参考訳): 最近のPTQ法では, ラウンド前に外周を拡散するブロック回転が採用されている。
これにより全ベクトル回転のオーバーヘッドが減少するが、外乱抑制に対するブロック構造の影響はいまだによく分かっていない。
このギャップを埋めるために,ブロックアダマール回転に対する外乱抑制の系統的,非漸近的解析を行った。
解析の結果,入力ベクトルの幾何によって外乱抑制が根本的に制限されていることが明らかとなった。
特に、プリローテーションの$\ell_1$標準質量がブロック間で均等に分散されている場合、ポストローテーションのアウトリー数は決定論的に最小化される。
これらの知見に導かれたMixQuantは、回転前に置換によって活性化質量を再分配するブロックローテーション対応PTQフレームワークである。
予測ブロックワイズ$\ell_1$ノルムを等化することにより、置換を校正するグリーディ質量拡散アルゴリズムを提案する。
推論オーバーヘッドの追加を避けるため、トランスフォーマーアーキテクチャにおける置換等価領域を特定し、結果の置換をデプロイ前にモデル重みにマージする。
実験の結果、MixQuantは全ブロックサイズで常に精度を向上し、Llama3 1Bをブロックサイズ16のINT4に量子化する際の全ベクトル回転パープレキシティの最大90%を回復する。
関連論文リスト
- Revisiting Weighted Strategy for Non-stationary Parametric Bandits and MDPs [56.246783503873225]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
本稿では,ウィンドウ/リスタートベースアルゴリズムと同様に,より単純な重みに基づくアルゴリズムを提案する。
我々のフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2026-01-03T04:50:21Z) - Worth Their Weight: Randomized and Regularized Block Kaczmarz Algorithms without Preprocessing [2.542838926315103]
ランダム化ブロックKaczmarz法(RBK)のデータの一様サンプリング時の収束を解析し,その繰り返しがモンテカルロの感覚で$textit$ least-squaresの解に収束することを示す。
RBKイテレーションに正規化を組み込むことでこれらの問題を制御し、正規化アルゴリズムReBlocKを得る。
論文 参考訳(メタデータ) (2025-02-02T19:23:46Z) - DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs [40.48697728884967]
大規模言語モデル(LLM)の量子化は、特に外部アクティベーションの存在により、大きな課題に直面している。
伝統的なアプローチは、比較的大きな大きさの全てのトークンをまたいだ活性化であるノーマル・アウトリエに主に対応している。
DuQuantは回転変換と置換変換を利用して、大量および正常な外れ値の両方をより効果的に緩和する新しいアプローチである。
論文 参考訳(メタデータ) (2024-06-03T18:27:44Z) - Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - State space partitioning based on constrained spectral clustering for
block particle filtering [7.32172860877574]
粒子フィルタ (PF) は非線形および/または非ガウス問題のフィルタリング分布を推定するために広く用いられている強力な推論ツールである。
PFの次元性の呪いを克服するため、ブロックPF(BPF)は、状態空間をいくつかの部分空間またはより小さな次元のブロックに分割するブロッキングステップを挿入する。
小さいブロックを用いてフィルタ分布の推定値のばらつきを低減させるが、ブロック間の相関が壊れ、バイアスが生じる。
論文 参考訳(メタデータ) (2022-03-07T15:45:47Z) - Direct Measure Matching for Crowd Counting [59.66286603624411]
そこで本研究では,予測密度マップを散乱点付基底真理に直接回帰する測度に基づく新しい計数手法を提案する。
本稿では, シンクホーンの測位損失を計測するために設計した, 半平衡型のシンクホーン発散を導出する。
論文 参考訳(メタデータ) (2021-07-04T06:37:33Z) - 1$\times$N Block Pattern for Network Sparsity [90.43191747596491]
我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。
このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。
また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
論文 参考訳(メタデータ) (2021-05-31T05:50:33Z) - A Two Stage Generalized Block Orthogonal Matching Pursuit (TSGBOMP)
Algorithm [0.3867363075280543]
いくつかの投射からの未知のスパース信号の回収は、圧縮センシングの重要な目的である。
BOMPのような既存のブロックスパース回復アルゴリズムは、一様ブロックサイズと既知のブロック境界を仮定する。
本稿では,第1段階が粗いブロック位置同定段階である2段階の手順を提案する。
第2のステージは、第1のステージで選択されたウィンドウ内の非ゼロクラスタのより微細なローカライズを実行する。
論文 参考訳(メタデータ) (2020-08-18T17:00:55Z) - Bayesian Bits: Unifying Quantization and Pruning [73.27732135853243]
我々は、勾配に基づく最適化による混合精度量子化とプルーニングの実用的な方法であるBayesian Bitsを紹介する。
提案手法をいくつかのベンチマーク・データセット上で実験的に検証し,プレナード付き混合精度ネットワークを学習可能であることを示す。
論文 参考訳(メタデータ) (2020-05-14T16:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。