論文の概要: LampQ: Towards Accurate Layer-wise Mixed Precision Quantization for Vision Transformers
- arxiv url: http://arxiv.org/abs/2511.10004v1
- Date: Fri, 14 Nov 2025 01:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.634666
- Title: LampQ: Towards Accurate Layer-wise Mixed Precision Quantization for Vision Transformers
- Title(参考訳): LampQ:視覚変換器のための精度の高いレイヤーワイド混合精密量子化を目指して
- Authors: Minjun Kim, Jaeri Lee, Jongjin Kim, Jeongin Yun, Yongmo Kwon, U Kang,
- Abstract要約: 量子化アルゴリズムはビジョントランスフォーマー(ViT)を低ビットフォーマットに圧縮し、メモリと計算要求を減らす。
既存の手法は均一な精度に依存しており、量子化に対するViT成分の多様な感度を無視している。
本稿では,これらの制限を克服するために,VTの正確なメートル法MPQ手法であるLampQを提案する。
- 参考スコア(独自算出の注目度): 16.838508946926947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can we accurately quantize a pre-trained Vision Transformer model? Quantization algorithms compress Vision Transformers (ViTs) into low-bit formats, reducing memory and computation demands with minimal accuracy degradation. However, existing methods rely on uniform precision, ignoring the diverse sensitivity of ViT components to quantization. Metric-based Mixed Precision Quantization (MPQ) is a promising alternative, but previous MPQ methods for ViTs suffer from three major limitations: 1) coarse granularity, 2) mismatch in metric scale across component types, and 3) quantization-unaware bit allocation. In this paper, we propose LampQ (Layer-wise Mixed Precision Quantization for Vision Transformers), an accurate metric-based MPQ method for ViTs to overcome these limitations. LampQ performs layer-wise quantization to achieve both fine-grained control and efficient acceleration, incorporating a type-aware Fisher-based metric to measure sensitivity. Then, LampQ assigns bit-widths optimally through integer linear programming and further updates them iteratively. Extensive experiments show that LampQ provides the state-of-the-art performance in quantizing ViTs pre-trained on various tasks such as image classification, object detection, and zero-shot quantization.
- Abstract(参考訳): 事前学習したビジョントランスモデルを正確に定量化する方法
量子化アルゴリズムはビジョントランスフォーマー(ViT)を低ビットフォーマットに圧縮し、メモリと計算要求を最小限の精度で削減する。
しかし、既存の手法は均一な精度に依存しており、量子化に対するViT成分の多様な感度を無視している。
Metric-based Mixed Precision Quantization (MPQ) は有望な代替手段であるが、以前のMPQメソッドでは3つの大きな制限が課されていた。
1)粗粒度
2 成分種別計量スケールのミスマッチ、及び
3)量子化を意識しないビット割り当て。
本稿では、これらの制限を克服するために、正確なメートル法に基づくMPQ法であるLampQ(Layer-wise Mixed Precision Quantization for Vision Transformers)を提案する。
LampQは、微粒化制御と効率的な加速の両方を達成するために層単位で量子化を行い、感度を測定するためにタイプアウェアのFisherベースのメトリクスを取り入れている。
次に、LampQは整数線形プログラミングによりビット幅を最適に割り当て、さらに繰り返し更新する。
LampQは画像分類、オブジェクト検出、ゼロショット量子化といった様々なタスクで事前訓練されたViTの定量化において、最先端のパフォーマンスを提供する。
関連論文リスト
- APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers [71.2294205496784]
平均摂動ヘシアン (APH) を用いた重要度推定に基づく新しいPTQ手法である textbfAPHQ-ViT を提案する。
本稿では,線形量子化器を用いたAPHQ-ViTが既存のPTQ法よりも3ビット,4ビットの差が大きいことを示す。
論文 参考訳(メタデータ) (2025-04-03T11:48:56Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision
Transformer [7.041718444626999]
視覚変換器(MPTQ-ViT)のための混合精度後学習量子化フレームワークを提案する。
我々のViT,DeiT,Swinに関する実験では,ImageNetデータセットのSOTAと比較して精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-01-26T14:25:15Z) - Patch-wise Mixed-Precision Quantization of Vision Transformer [2.3104000011280403]
視覚変換器(ViT)は、強力な特徴表現の学習を保証するために複雑な自己注意計算を必要とする。
本稿では,ViTの効率的な推定のためのパッチワイド混合精度量子化(PMQ)を提案する。
論文 参考訳(メタデータ) (2023-05-11T04:34:10Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。