論文の概要: I-ViT: Integer-only Quantization for Efficient Vision Transformer
Inference
- arxiv url: http://arxiv.org/abs/2207.01405v4
- Date: Mon, 7 Aug 2023 03:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 01:08:14.040608
- Title: I-ViT: Integer-only Quantization for Efficient Vision Transformer
Inference
- Title(参考訳): I-ViT:効率的な視覚変換器推論のための整数のみ量子化
- Authors: Zhikai Li and Qingyi Gu
- Abstract要約: ビジョントランスフォーマー (ViT) は様々なコンピュータビジョンアプリケーションで最先端のパフォーマンスを実現している。
これらのモデルにはかなりのストレージと計算オーバーヘッドがあり、エッジデバイスへのデプロイメントと効率的な推論が困難である。
整数演算とビットシフトによる推論の計算グラフ全体の実行を可能にするために,ViTの整数のみの量子化方式であるI-ViTを提案する。
- 参考スコア(独自算出の注目度): 3.067607520161916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have achieved state-of-the-art performance on
various computer vision applications. However, these models have considerable
storage and computational overheads, making their deployment and efficient
inference on edge devices challenging. Quantization is a promising approach to
reducing model complexity, and the dyadic arithmetic pipeline can allow the
quantized models to perform efficient integer-only inference. Unfortunately,
dyadic arithmetic is based on the homogeneity condition in convolutional neural
networks, which is not applicable to the non-linear components in ViTs, making
integer-only inference of ViTs an open issue. In this paper, we propose I-ViT,
an integer-only quantization scheme for ViTs, to enable ViTs to perform the
entire computational graph of inference with integer arithmetic and
bit-shifting, and without any floating-point arithmetic. In I-ViT, linear
operations (e.g., MatMul and Dense) follow the integer-only pipeline with
dyadic arithmetic, and non-linear operations (e.g., Softmax, GELU, and
LayerNorm) are approximated by the proposed light-weight integer-only
arithmetic methods. More specifically, I-ViT applies the proposed Shiftmax and
ShiftGELU, which are designed to use integer bit-shifting to approximate the
corresponding floating-point operations. We evaluate I-ViT on various benchmark
models and the results show that integer-only INT8 quantization achieves
comparable (or even slightly higher) accuracy to the full-precision (FP)
baseline. Furthermore, we utilize TVM for practical hardware deployment on the
GPU's integer arithmetic units, achieving 3.72$\sim$4.11$\times$ inference
speedup compared to the FP model. Code of both Pytorch and TVM is released at
https://github.com/zkkli/I-ViT.
- Abstract(参考訳): ビジョントランスフォーマー (ViT) は様々なコンピュータビジョンアプリケーションで最先端の性能を達成した。
しかし、これらのモデルにはかなりのストレージと計算オーバーヘッドがあり、エッジデバイスへのデプロイメントと効率的な推論が困難である。
量子化はモデルの複雑さを減らすための有望なアプローチであり、dyadic arithmetic pipelineは量子化モデルが効率的な整数のみの推論を可能にする。
残念ながら、dyadic演算は畳み込みニューラルネットワークの同質性条件に基づいているが、これはvitsの非線形成分には適用できないため、vitsの整数のみの推論は未解決の問題となっている。
本稿では,vitに対する整数のみの量子化スキームであるi-vitを提案する。vitsは整数演算とビットシフトによる推論の計算グラフ全体を浮動小数点演算なしで実行可能にする。
i-vitでは、線形演算(例えば、matmul や dense)はdyadic演算を伴う整数専用パイプラインに従い、非線形演算(例えばsoftmax、gelu、layernorm)は、提案される軽量整数専用演算法によって近似される。
より具体的には、I-ViTでは、整数ビットシフトを用いて対応する浮動小数点演算を近似するShiftmaxとShiftGELUが提案されている。
我々は,様々なベンチマークモデルを用いてI-ViTを評価し,整数のみのINT8量子化が全精度(FP)ベースラインに匹敵する精度(あるいはさらに高い精度)を達成することを示した。
さらに、GPUの整数演算ユニットの実用的なハードウェア展開にTVMを使用し、FPモデルと比較して3.72$\sim$4.11$\times$推論スピードアップを達成した。
PytorchとTVMのコードはhttps://github.com/zkkli/I-ViT.comで公開されている。
関連論文リスト
- PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer [6.473688838974095]
本稿では,GPU上でのエンドツーエンドの推論高速化を実現するために,$textbfShiftAddViT$と呼ばれる新たな乗法モデルを提案する。
様々な2D/3D視覚タスクの実験は、提案したShiftAddViTの有効性を一貫して検証する。
論文 参考訳(メタデータ) (2023-06-10T13:53:41Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Integer Fine-tuning of Transformer-based Models [13.383066080742699]
変圧器モデルにおける整数微調整において必要最小ビット幅を求めるために, 様々な整数ビット幅が与える影響について検討する。
16ビットの整数モデルが浮動小数点のベースライン性能と一致することを示す。
さらにビット幅を8に下げると、平均スコアは1.7ポイント低下する。
論文 参考訳(メタデータ) (2022-09-20T16:02:28Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - Is Integer Arithmetic Enough for Deep Learning Training? [2.9136421025415205]
浮動小数点演算を低ビット整数演算に置き換えることは、ディープラーニングモデルのエネルギー、メモリフットプリント、レイテンシを節約するための有望なアプローチである。
本稿では,フォワードパス,バックプロパゲーション,勾配降下を含む完全関数型整数学習パイプラインを提案する。
提案手法は, 視覚変換器, オブジェクト検出, セマンティックセグメンテーションなど, 多様なタスクに有効であることを示す。
論文 参考訳(メタデータ) (2022-07-18T22:36:57Z) - I-BERT: Integer-only BERT Quantization [78.43819756382103]
トランスフォーマーモデルのための新しい量子化手法であるI-BERTを提案する。
I-BERTは浮動小数点演算なしでエンドツーエンドの整数のみのBERT推論を実行する。
いずれの場合も,I-BERTは全精度ベースラインと同等(かつ若干高い)精度が得られた。
論文 参考訳(メタデータ) (2021-01-05T02:42:58Z) - NITI: Training Integer Neural Networks Using Integer-only Arithmetic [4.361357921751159]
我々は,整数演算のみを用いて計算を行う,効率的なディープニューラルネットワークトレーニングフレームワークであるNITIを提案する。
ネイティブ8ビット整数演算を用いたNITIの概念実証ソフトウェア実装について述べる。
NITIは8ビット整数ストレージと計算を用いてMNISTとCIFAR10データセットの無視可能な精度劣化を実現する。
論文 参考訳(メタデータ) (2020-09-28T07:41:36Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。