論文の概要: AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer
- arxiv url: http://arxiv.org/abs/2407.12951v1
- Date: Wed, 17 Jul 2024 18:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:33:23.311264
- Title: AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer
- Title(参考訳): AdaLog: 適応対数量子化器を用いた視覚変換器のポストトレーニング量子化
- Authors: Zhuguanyu Wu, Jiaxin Chen, Hanwen Zhong, Di Huang, Yunhong Wang,
- Abstract要約: Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
- 参考スコア(独自算出の注目度): 54.713778961605115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) has become one of the most prevailing fundamental backbone networks in the computer vision community. Despite the high accuracy, deploying it in real applications raises critical challenges including the high computational cost and inference latency. Recently, the post-training quantization (PTQ) technique has emerged as a promising way to enhance ViT's efficiency. Nevertheless, existing PTQ approaches for ViT suffer from the inflexible quantization on the post-Softmax and post-GELU activations that obey the power-law-like distributions. To address these issues, we propose a novel non-uniform quantizer, dubbed the Adaptive Logarithm AdaLog (AdaLog) quantizer. It optimizes the logarithmic base to accommodate the power-law-like distribution of activations, while simultaneously allowing for hardware-friendly quantization and de-quantization. By employing the bias reparameterization, the AdaLog quantizer is applicable to both the post-Softmax and post-GELU activations. Moreover, we develop an efficient Fast Progressive Combining Search (FPCS) strategy to determine the optimal logarithm base for AdaLog, as well as the scaling factors and zero points for the uniform quantizers. Extensive experimental results on public benchmarks demonstrate the effectiveness of our approach for various ViT-based architectures and vision tasks including classification, object detection, and instance segmentation. Code is available at https://github.com/GoatWu/AdaLog.
- Abstract(参考訳): Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
精度が高いにもかかわらず、実際のアプリケーションにデプロイすると、高い計算コストや推論遅延などの重要な問題が発生する。
近年,ポストトレーニング量子化 (PTQ) 技術が ViT の効率を高めるための有望な方法として出現している。
それでも、ViT の既存の PTQ アプローチは、Softmax 以降の非フレキシブルな量子化と、Power-law-like 分布に従うポストGELU 活性化に悩まされている。
これらの問題に対処するために,Adaptive Logarithm AdaLog (AdaLog) Quantizer と呼ばれる新しい非一様量子化器を提案する。
対数基底を最適化して、ハードウェアフレンドリーな量子化と非量子化を実現しつつ、アクティベーションのパワーローのような分布を許容する。
バイアス再パラメータ化を用いることで、AdaLog量子化器は、Softmax以降とGELU後のアクティベーションの両方に適用できる。
さらに,AdaLog の最適対数ベースを決定するための高速プログレッシブ・コンバインド・サーチ (FPCS) 戦略と,一様量子化器のスケーリング係数とゼロ点を提案する。
公開ベンチマークによる大規模な実験結果から,分類やオブジェクト検出,インスタンスセグメンテーションなど,様々なViTアーキテクチャやビジョンタスクに対するアプローチの有効性が示された。
コードはhttps://github.com/GoatWu/AdaLogで入手できる。
関連論文リスト
- DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers [2.0862654518798034]
本稿では,視覚変換器のための分散親和性・外乱性を考慮したポストトレーニング量子化手法を提案する。
DopQ-ViTは、現在の量子化器の非効率性を分析し、TanQと呼ばれる分布に優しいタン量子化器を導入する。
DopQ-ViTは広範囲に検証され、量子化モデルの性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-08-06T16:40:04Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers [7.155242379236052]
ビジョントランスフォーマー(ViT)の量子化は、これらの課題を緩和するための有望なソリューションとして現れている。
既存の手法は依然として低ビットでの精度の低下に悩まされている。
ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンスセグメンテーションタスクにおいて、様々なベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2024-07-03T02:41:59Z) - Model Quantization and Hardware Acceleration for Vision Transformers: A Comprehensive Survey [6.04807281619171]
ビジョントランスフォーマー(ViT)は近年、いくつかの視覚関連アプリケーションにおいて、畳み込みニューラルネットワーク(CNN)に代わる有望な選択肢として、かなりの注目を集めている。
本稿では,ViTs量子化とそのハードウェアアクセラレーションに関する包括的調査を行う。
論文 参考訳(メタデータ) (2024-05-01T04:32:07Z) - Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers [10.566264033360282]
ポストトレーニング量子化(PTQ)は、モバイルやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして登場した。
本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T05:58:43Z) - I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization [49.17407185195788]
我々は,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。
I&S-ViTは3ビットのViT-Bの性能を50.68%向上させた。
論文 参考訳(メタデータ) (2023-11-16T13:07:47Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - Scaling Quantum Approximate Optimization on Near-term Hardware [49.94954584453379]
我々は、様々なレベルの接続性を持つハードウェアアーキテクチャのための最適化回路により、期待されるリソース要求のスケーリングを定量化する。
問題の大きさと問題グラフの次数で指数関数的に増大する。
これらの問題は、ハードウェア接続性の向上や、より少ない回路層で高い性能を達成するQAOAの変更によって緩和される可能性がある。
論文 参考訳(メタデータ) (2022-01-06T21:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。