論文の概要: Mix-QViT: Mixed-Precision Vision Transformer Quantization Driven by Layer Importance and Quantization Sensitivity
- arxiv url: http://arxiv.org/abs/2501.06357v1
- Date: Fri, 10 Jan 2025 21:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:45.474098
- Title: Mix-QViT: Mixed-Precision Vision Transformer Quantization Driven by Layer Importance and Quantization Sensitivity
- Title(参考訳): Mix-QViT:Mix-Precision Vision Transformer Quantization-Driven by Layer Importance and Quantization Sensitivity
- Authors: Navin Ranjan, Andreas Savakis,
- Abstract要約: Mix-QViTは2つの基準に基づいて各レイヤにビット幅を割り当てる説明可能性駆動MPQフレームワークである。
学習後量子化のために、クリップされたチャネルワイド量子化法を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we propose Mix-QViT, an explainability-driven MPQ framework that systematically allocates bit-widths to each layer based on two criteria: layer importance, assessed via Layer-wise Relevance Propagation (LRP), which identifies how much each layer contributes to the final classification, and quantization sensitivity, determined by evaluating the performance impact of quantizing each layer at various precision levels while keeping others layers at a baseline. Additionally, for post-training quantization (PTQ), we introduce a clipped channel-wise quantization method designed to reduce the effects of extreme outliers in post-LayerNorm activations by removing severe inter-channel variations. We validate our approach by applying Mix-QViT to ViT, DeiT, and Swin Transformer models across multiple datasets. Our experimental results for PTQ demonstrate that both fixed-bit and mixed-bit methods outperform existing techniques, particularly at 3-bit, 4-bit, and 6-bit precision. Furthermore, in quantization-aware training, Mix-QViT achieves superior performance with 2-bit mixed-precision.
- Abstract(参考訳): 本稿では,各レイヤが最終分類にどの程度貢献するかを識別するレイヤ重要度と,各レイヤを様々な精度で定量化し,他のレイヤをベースラインに保ちながら,各レイヤのパフォーマンスへの影響を定量化することで決定される量子化感度の2つの基準に基づいて,各レイヤにビット幅を体系的に割り当てる説明可能性駆動型MPQフレームワークであるMix-QViTを提案する。
さらに,ポストトレーニング量子化(PTQ)において,重度チャネル間変動を取り除き,ライヤーノーム後のアクティベーションにおける極端外れ値の影響を低減するためのクリッピングチャネルワイド量子化手法を提案する。
複数のデータセットにわたるViT、DeiT、Swin TransformerモデルにMix-QViTを適用することで、我々のアプローチを検証する。
PTQ実験の結果,固定ビット法と混合ビット法はいずれも既存の手法,特に3ビット,4ビット,6ビットの精度に優れていた。
さらに、量子化学習において、Mix-QViTは2ビット混合精度で優れた性能を達成する。
関連論文リスト
- LRP-QViT: Mixed-Precision Vision Transformer Quantization via Layer-wise
Relevance Propagation [0.0]
LRP-QViTは、異なる層に混合精度のビット割り当てを割り当てる説明可能性に基づく手法である。
実験結果から,固定ビット・混合ビット後量子化法が既存の4ビット・6ビット量子化法を超越していることが判明した。
論文 参考訳(メタデータ) (2024-01-20T14:53:19Z) - Mixed-Precision Quantization with Cross-Layer Dependencies [6.338965603383983]
混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。
既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。
この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level
Continuous Sparsification [51.81850995661478]
混合精度量子化はディープニューラルネットワーク(DNN)に広く応用されている
トレーニング中のビットレベル正規化とプルーニングに基づく動的精度調整の試みは、ノイズ勾配と不安定収束に悩まされている。
安定度を向上した混合精度量子化スキームを探索するビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:44:21Z) - On Robust Learning from Noisy Labels: A Permutation Layer Approach [53.798757734297986]
本稿では、深層ニューラルネットワーク(DNN)のトレーニング過程を動的に校正するPermLLと呼ばれる置換層学習手法を提案する。
本稿では,PermLLの2つの変種について述べる。一方はモデルの予測に置換層を適用し,他方は与えられた雑音ラベルに直接適用する。
我々はPermLLを実験的に検証し、実際のデータセットと合成データセットの両方で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2022-11-29T03:01:48Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - PTQ-SL: Exploring the Sub-layerwise Post-training Quantization [6.0070278366995105]
ネットワーク量子化は畳み込みニューラルネットワークを圧縮する強力な技術である。
量子化の粒度は、ウェイトにおけるスケーリング因子の共有方法を決定する。
サブ層粒度(PTQ-SL)における学習後効率的な量子化法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。