論文の概要: LRP-QViT: Mixed-Precision Vision Transformer Quantization via Layer-wise
Relevance Propagation
- arxiv url: http://arxiv.org/abs/2401.11243v1
- Date: Sat, 20 Jan 2024 14:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 17:17:51.554313
- Title: LRP-QViT: Mixed-Precision Vision Transformer Quantization via Layer-wise
Relevance Propagation
- Title(参考訳): LRP-QViT:レイヤワイド関連伝搬による混合精密ビジョン変換器量子化
- Authors: Navin Ranjan and Andreas Savakis
- Abstract要約: LRP-QViTは、異なる層に混合精度のビット割り当てを割り当てる説明可能性に基づく手法である。
実験結果から,固定ビット・混合ビット後量子化法が既存の4ビット・6ビット量子化法を超越していることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) have demonstrated remarkable performance across
various visual tasks. However, ViT models suffer from substantial computational
and memory requirements, making it challenging to deploy them on
resource-constrained platforms. Quantization is a popular approach for reducing
model size, but most studies mainly focus on equal bit-width quantization for
the entire network, resulting in sub-optimal solutions. While there are few
works on mixed precision quantization (MPQ) for ViTs, they typically rely on
search space-based methods or employ mixed precision arbitrarily. In this
paper, we introduce LRP-QViT, an explainability-based method for assigning
mixed-precision bit allocations to different layers based on their importance
during classification. Specifically, to measure the contribution score of each
layer in predicting the target class, we employ the Layer-wise Relevance
Propagation (LRP) method. LRP assigns local relevance at the output layer and
propagates it through all layers, distributing the relevance until it reaches
the input layers. These relevance scores serve as indicators for computing the
layer contribution score. Additionally, we have introduced a clipped
channel-wise quantization aimed at eliminating outliers from post-LayerNorm
activations to alleviate severe inter-channel variations. To validate and
assess our approach, we employ LRP-QViT across ViT, DeiT, and Swin transformer
models on various datasets. Our experimental findings demonstrate that both our
fixed-bit and mixed-bit post-training quantization methods surpass existing
models in the context of 4-bit and 6-bit quantization.
- Abstract(参考訳): 視覚トランスフォーマー (vits) は様々な視覚タスクで顕著な性能を示している。
しかし、ViTモデルは相当な計算とメモリ要件に悩まされており、リソース制約のあるプラットフォームにデプロイすることは困難である。
量子化は、モデルサイズを減らすための一般的なアプローチであるが、ほとんどの研究は、ネットワーク全体の等しいビット幅の量子化に重点を置いている。
ViTの混合精度量子化(MPQ)に関する研究はほとんどないが、通常は探索空間に基づく手法や混合精度を任意に利用する。
本稿では,異なる層に混合精度のビット割り当てを割り当てる説明可能性に基づく LRP-QViT を提案する。
具体的には,対象クラスの予測における各レイヤのコントリビューションスコアを測定するために,Layer-wise Relevance Propagation (LRP)法を用いる。
lrpは出力層に局所的関連性を割り当て、すべての層に伝播し、入力層に到達するまで関連性を分散する。
これらの関連度スコアは、層貢献度を計算する指標となる。
さらに,ポスト層ノルムアクティベーションの異常を解消し,チャネル間変動を緩和することを目的とした,クリップ型チャネルワイズ量子化も導入した。
我々のアプローチを検証し、評価するために、様々なデータセット上で、ViT、DeiT、Swin変換モデルにLRP-QViTを用いる。
実験の結果, 4ビットおよび6ビットの量子化では, 固定ビットおよび混合ビット後量子化法が既存モデルを上回ることがわかった。
関連論文リスト
- AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - CLAMP-ViT: Contrastive Data-Free Learning for Adaptive Post-Training Quantization of ViTs [6.456189487006878]
視覚変換器(ViT)のためのデータフリー後学習量子化法であるCLAMP-ViTを提案する。
我々は、近年の手法の限界、特に意味のあるパッチ間の関係を活用できないことを特定する。
CLAMP-ViTは2段階のアプローチを採用し、データ生成とモデル量子化の間に循環的に適応する。
論文 参考訳(メタデータ) (2024-07-07T05:39:25Z) - QGait: Toward Accurate Quantization for Gait Recognition with Binarized Input [17.017127559393398]
バックプロパゲーション時の円関数の勾配をよりよくシミュレートする,微分可能なソフト量子化器を提案する。
これにより、ネットワークは微妙な入力摂動から学習することができる。
量子化エラーをシミュレートしながら収束を確保するためのトレーニング戦略をさらに洗練する。
論文 参考訳(メタデータ) (2024-05-22T17:34:18Z) - Instance-Aware Group Quantization for Vision Transformers [20.105148326987646]
ポストトレーニング量子化(PTQ)は、事前訓練された完全精度モデルを定量化する効率的なモデル圧縮手法である。
畳み込みニューラルネットワーク(CNN)のPTQ手法は、完全精度のニューラルネットワークに匹敵する量子化結果を提供する。
我々は、VIT(IGQ-ViT)のためのインスタンス対応グループ量子化を導入する。
論文 参考訳(メタデータ) (2024-04-01T05:12:30Z) - Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。
各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - SPIQ: Data-Free Per-Channel Static Input Quantization [37.82255888371488]
効率的な推論手法は、機械学習コミュニティで注目を集めている。
本研究では,静的な入力量子化が,チャネルごとの入力量子化方式によって動的手法の精度レベルに達することを論じる。
提案手法はSPIQと呼ばれ、静的な推論速度で動的アプローチに匹敵する精度を実現する。
論文 参考訳(メタデータ) (2022-03-28T10:59:18Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。